决策树(Decision Tree)

  • Post author:
  • Post category:其他


1.什么是决策树?

决策树是一个类似于流程图的树状结构。其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每一个树叶结点代表类或类分布。树的最顶层是根结点。

2. 熵(Entropy)的概念:

抽象的“信息”该如何来度量?

1948年,香农提出了“信息熵”的概念。

一条信息的信息量大小和它的不确定性有着直接的关系。要弄清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息 ==> 信息量的度量就相当于不确定性的多少。

用比特(bit)来衡量信息的多少:

变量的不确定性越大,相应的熵也就越大。

3. 决策树归纳算法流程(ID3)

树以代表训练样本的单个结点开始。

如果样本都在同一个类中,则该结点成为树叶结点,并用该类标号。

否则,算法使用称为“信息增益”的基于熵的度量作为启发信息,选择能够最好地将样本分类的属性。该属性成为该结点的“测试”或“判定”属性。

在该版本的算法中,所有的属性都是分类的,即离散值。连续值属性必须进过离散化。

对测试属性的每个已知的值,创建一个分支,并据此划分样本。

算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代上考虑它。

递归划分步骤仅当下列条件之一成立时停止:

(a)给定结点的所有样本属于同一类。

(b)没有剩余属性可以用来进一步划分样本。在此情况下,使用多数表决。这涉及将给定的结点转换成树叶结点,并用样本中的多数所在的类来标记它。替换地,可以存放结点样本的类分布。

c)分枝:t e s t _ a t t r i b u t e = a i test\_attribute = a_{i}test_attribute=a i



版权声明:本文为2301_76512755原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。