一、决策树算法简介
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法
决策树
:
- 是一种树形结构,本质是一颗由多个判断节点组成的树
- 其中每个内部节点表示一个属性上的判断,
- 每个分支代表一个判断结果的输出,
- 最后每个叶节点代表一种分类结果。
怎么理解这句话?通过一个对话例子
想一想这个女生为什么把年龄放在最上面判断!!!!!!!!!
上面案例是女生通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量化,该如何处理呢?
此时需要用到信息论中的知识:信息熵,信息增益
小结
-
决策树定义:
- 是一种树形结构,
- 本质是一颗由多个判断节点组成的树
二、决策树分类原理
1. 熵
1.1 概念
物理学上,
熵 Entropy
是“混乱”程度的量度。
系统越有序,熵值越低;系统越混乱或者分散,熵值越高
。
1948年香农提出了**信息熵(Entropy)**的概念。
-
信息理论
:
1、
从信息的完整性上进行的描述:
当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。
2、
从信息的有序性上进行的描述:
当
数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高
。
“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。
假定当前样本集合 D 中第 k 类样本所占的比例为
p
k
(
k
=
1
,
2
,
.
.
.
,
∣
y
∣
)
p_k(k = 1, 2,. . . , |y|)
p
k
(
k
=
1
,
2
,
.
.
.
,
∣
y
∣
)
,
p
k
=
C
k
D
p_k=\frac{C^k}{D}
p
k
=
D
C
k
, D为样本的所有数量,
C
k
C^k
C
k
为第k类样本的数量。
则 D的信息熵定义为((log是以2为底,lg是以10为底):
其中:Ent(D) 的值越小,则 D 的纯度越高.
1.2 案例
课堂案例:
假设我们没有看世界杯的比赛,但是想知道哪支球队会是冠军,
我们只能猜测某支球队是或不是冠军,然后观众用对或不对来回答,
我们想要猜测次数尽可能少,你会用什么方法?
答案:
二分法:
假如有 16 支球队,分别编号,先问是否在 1-8 之间,如果是就继续问是否在 1-4 之间,
以此类推,直到最后判断出冠军球队是哪支。
如果球队数量是 16,我们需要问 4 次来得到最后的答案。那么世界冠军这条消息的信息熵就是 4。
那么信息熵等于4,是如何进行计算的呢?
Ent(D) = -(p1 * logp1 + p2 * logp2 + ... + p16 * logp16),
其中 p1, ..., p16 分别是这 16 支球队夺冠的概率。
当每支球队夺冠概率相等都是 1/16 的时:Ent(D) = -(16 * 1/16 * log1/16) = 4
每个事件概率相同时,熵最大,这件事越不确定。
随堂练习:
篮球比赛里,有4个球队 {A,B,C,D} ,获胜概率分别为{1/2, 1/4, 1/8, 1/8}
求Ent(D)
答案:
2. 决策树的划分依据一—-信息增益
2.1 概念
信息增益
:以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。
信息增益 = entroy(前) – entroy(后)
注:信息增益表示得知特征X的信息而使得类Y的信息熵减少的程度
- 定义与公式
假定离散属性a有 V 个可能的取值:
a
1
,
a
2
,
.
.
.
,
a
V
a^1,a^2,…,a^V
a
1
,
a
2
,
.
.
.
,
a
V
假设离散属性性别有2(男,女)个可能的取值
若使用a来对样本集 D 进行划分,则会产生 V 个分支结点,
其中第v个分支结点包含了 D 中所有在属性a上取值为
a
v
a^v
a
v
的样本,记为
D
v
D^v
D
v
. 我们可根据前面给出的信息熵公式计算出
D
v
D^v
D
v
的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重
∣
D
v
∣
∣
D
∣
\frac{|D^v|}{|D|}
∣
D
∣
∣
D
v
∣
即样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集 D 进行划分所获得的”信息增益” (information gain)
其中:
特征a对训练数据集D的信息增益Gain(D,a),定义
为集合D的信息熵Ent(D)与给定特征a条件下D的信息条件熵Ent(D|a)Ent(D∣a)之差
,即公式为:
公式的详细解释:
信息熵的计算:
条件熵的计算:
其中:
D
v
D^v
D
v
表示a属性中第v个分支节点包含的样本数
C
k
v
C^{kv}
C
k
v
表示a属性中第v个分支节点包含的样本数中,第k个类别下包含的样本数
一般而言,信息增益越大,则意味着
使用属性 a 来进行划分所获得的”纯度提升”越大
。因此,我们可用信息增益来进行决策树的划分属性选择,著名的 ID3 决策树学习算法 [Quinlan, 1986] 就是以信息增益为准则来选择划分属性。
其中,ID3 名字中的 ID 是 Iterative Dichotomiser (迭代二分器)的简称
2.2 案例
如下图,第一列为论坛号码,第二列为性别,第三列为活跃度,最后一列用户是否流失。
我们要解决一个问题:
性别和活跃度两个特征,哪个对用户流失影响更大
?
通过计算信息增益可以解决这个问题,统计上右表信息
其中Positive为正样本(已流失),Negative为负样本(未流失),下面的数值为不同划分下对应的人数。
可得到三个熵:
a.计算类别信息熵
整体熵:
b.计算性别属性的信息熵(a=“性别”)
c.计算性别的信息增益(a=“性别”)
b.计算活跃度属性的信息熵(a=“活跃度”)
c.计算活跃度的信息增益(a=“活跃度”)
活跃度的信息增益比性别的信息增益大,也就是说,活跃度对用户流失的影响比性别大
。在做特征选择或者数据分析的时候,我们应该重点考察活跃度这个指标。
3. 决策树的划分依据二—-信息增益率
3.1 概念
在上面的介绍中,我们有意忽略了”编号”这一列.若把”编号”也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益为 0.9182,远大于其他候选划分属性。
计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.
实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan, 1993J 不直接使用信息增益,而是使用”增益率” (gain ratio) 来选择最优划分属性.
增益率
:增益率是用前面的信息增益Gain(D, a)和属性a对应的”固有值”(intrinsic value) [Quinlan , 1993J的比值来共同定义的。
属性 a 的可能取值数目越多(即 V 越大),则 IV(a) 的值通常会越大.
3.2 案例
3.2.1 案例一
a.计算类别信息熵
b.计算性别属性的信息熵(性别、活跃度)
c.计算活跃度的信息增益(性别、活跃度)
d.计算属性分裂信息度量
用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息,会导致属性的重要性随着内在信息的增大而减小(
也就是说,如果这个属性本身不确定性就很大,那我就越不倾向于选取它
),这样算是对单纯用信息增益有所补偿。
e.计算信息增益率
活跃度的信息增益率更高一些,所以在构建决策树的时候,优先选择
通过这种方式,在选取节点的过程中,我们可以降低取值较多的属性的选取偏好。
3.2.2 案例二
如下图,第一列为天气,第二列为温度,第三列为湿度,第四列为风速,最后一列该活动是否进行。
我们要解决:
根据下面表格数据,判断在对应天气下,活动是否会进行
?
该数据集有四个属性,属性集合A={ 天气,温度,湿度,风速}, 类别标签有两个,类别集合L={进行,取消}。
a.计算类别信息熵
类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念,熵越大,不确定性就越大,把事情搞清楚所需要的信息量就越多。
E
n
t
(
D
)
=
−
9
14
l
o
g
2
9
14
−
5
14
l
o
g
2
5
14
=
0.940
Ent(D)=-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14}=0.940
E
n
t
(
D
)
=
−
1
4
9
l
o
g
2
1
4
9
−
1
4
5
l
o
g
2
1
4
5
=
0
.
9
4
0
b.计算每个属性的信息熵
每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,表示这个属性中拥有的样本类别越不“纯”。
c.计算信息增益
信息增益的 = 熵 – 条件熵,在这里就是 类别信息熵 – 属性信息熵,它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大,就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性,当然,选择该属性就可以更快更好地完成我们的分类目标。
信息增益就是ID3算法的特征选择指标。
假设我们把上面表格1的数据前面添加一列为”编号”,取值(1–14). 若把”编号”也作为一个候选划分属性,则根据前面步骤: 计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.940. 但是很明显这么分类,最后出现的结果不具有泛化效果.此时根据信息增益就无法选择出有效分类特征。所以,C4.5选择使用信息增益率对ID3进行改进。
d.计算属性分裂信息度量
用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息,我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息,会导致属性的重要性随着内在信息的增大而减小(也就是说,如果这个属性本身不确定性就很大,那我就越不倾向于选取它),这样算是对单纯用信息增益有所补偿。
e.计算信息增益率
天气的信息增益率最高,选择天气为分裂属性。发现分裂了之后,天气是“阴”的条件下,类别是”纯“的,所以把它定义为叶子节点,选择不“纯”的结点继续分裂。
在子结点当中重复过程1~5,直到所有的叶子结点足够”纯”。
现在我们来总结一下C4.5的算法流程
while(当前节点"不纯"):
1.计算当前节点的类别熵(以类别取值计算)
2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)
3.计算信息增益
4.计算各个属性的分裂信息度量
5.计算各个属性的信息增益率
end while
当前阶段设置为叶子节点
3.3 为什么使用C4.5要好
1.用信息增益率来选择属性
克服了用信息增益来选择属性时偏向选择值多的属性的不足。
2.采用了一种后剪枝方法
避免树的高度无节制的增长,避免过度拟合数据
3.对于缺失值的处理
在某些情况下,可供使用的数据可能缺少某些属性的值。假如〈x,c(x)〉是样本集S中的一个训练实例,但是其属性A的值A(x)未知。
处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;
另外一种更复杂的策略是为A的每个可能值赋予一个概率。
例如,给定一个布尔属性A,如果结点n包含6个已知A=1和4个A=0的实例,那么A(x)=1的概率是0.6,而A(x)=0的概率是0.4。于是,实例x的60%60%被分配到A=1的分支,40%40%被分配到另一个分支。
C4.5就是使用这种方法处理缺少的属性值。
4. 决策树的划分依据三 —-基尼值和基尼指数
4.1 概念
CART 决策树 [Breiman et al., 1984] 使用”基尼指数” (Gini index)来选择划分属性.
CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用
基尼值Gini(D)
:从数据集D中随机抽取两个样本,其类别标记不一致的概率。
故,Gini(D)值越小,数据集D的纯度越高。
数据集 D 的纯度可用基尼值来度量:
pk
=
C
k
D
p_k=\frac{C^k}{D}
p
k
=
D
C
k
, D为样本的所有数量,
Ck
C^k
C
k
为第k类样本的数量。
基尼指数Gini_index(D)
:一般,选择使划分后基尼系数最小的属性作为最优化分属性。
4.2 案例
请根据下图列表,按照基尼指数的划分依据,做出决策树。
1,对数据集非序列标号属性{是否有房,婚姻状况,年收入}分别计算它们的Gini指数,
取Gini指数最小的属性
作为决策树的根节点属性。
第一次大循环
2,根节点的Gini值为:
3,当根据是否有房来进行划分时,Gini指数计算过程为:
4,若按婚姻状况属性来划分,属性婚姻状况有三个可能的取值{married,single,divorced},分别计算划分后的Gini系数增益。
{married} | {single,divorced}
{single} | {married,divorced}
{divorced} | {single,married}
对比计算结果,根据婚姻状况属性来划分根节点时取Gini指数最小的分组作为划分结果,即:
{married} | {single,divorced}
5,同理可得年收入Gini:
对于年收入属性为数值型属性,首先需要对数据按升序排序,然后从小到大依次用相邻值的中间值作为分隔将样本划分为两组。例如当面对年收入为60和70这两个值时,我们算得其中间值为65。以中间值65作为分割点求出Gini指数。
根据计算知道,三个属性划分根节点的指数最小的有两个:年收入属性和婚姻状况,他们的指数都为0.3。此时,选取首先出现的属性【married】作为第一次划分。
第二次大循环
6,接下来,采用同样的方法,分别计算剩下属性,其中根节点的Gini系数为(此时是否拖欠贷款的各有3个records)
7,对于是否有房属性,可得:
8,对于年收入属性则有:
经过如上流程,构建的决策树,如下图:
现在我们来总结一下CART的算法流程
while(当前节点"不纯"):
1.遍历每个变量的每一种分割方式,找到最好的分割点
2.分割成两个节点N1和N2
end while
每个节点足够“纯”为止
5. 小结
5.1 常见决策树的启发函数比较
名称 | 提出时间 | 分支方式 | 备注 |
---|---|---|---|
ID3 | 1975 | 信息增益 | ID3只能对离散属性的数据集构成决策树 |
C4.5 | 1993 | 信息增益率 | 优化后解决了ID3分支过程中总喜欢偏向选择值较多的 属性 |
CART | 1984 | Gini系数 | 可以进行分类和回归,可以处理离散属性,也可以处理连续属性 |
5.1.1 ID3 算法
存在的缺点
(1) ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息.
(2) ID3算法只能对描述属性为离散型属性的数据集构造决策树。
5.1.2 C4.5算法
做出的改进(为什么使用C4.5要好)
(1) 用信息增益率来选择属性
(2) 可以处理连续数值型属性
(3)采用了一种后剪枝方法
(4)对于缺失值的处理
C4.5算法的优缺点
优点:
产生的分类规则易于理解,准确率较高。
缺点:
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。
此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
5.1.3 CART算法
CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。
C4.5不一定是二叉树,但CART一定是二叉树。
5.1.4 多变量决策树(multi-variate decision tree)
同时,无论是ID3, C4.5还是CART,在做特征选择的时候都是选择最优的一个特征来做分类决策,但是大多数,
分类决策不应该是由某一个特征决定的,而是应该由一组特征决定的
。这样决策得到的决策树更加准确。这个决策树叫做多变量决策树(multi-variate decision tree)。在选择最优特征的时候,多变量决策树不是选择某一个最优特征,而是选择最优的一个特征线性组合来做决策。这个算法的代表是OC1,这里不多介绍。
如果样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习里面的随机森林之类的方法解决。
5.2 决策树变量的两种类型:
- 数字型(Numeric):变量类型是整数或浮点数,如前面例子中的“年收入”。用“>=”,“>”,“<”或“<=”作为分割条件(排序后,利用已有的分割情况,可以优化分割算法的时间复杂度)。
- 名称型(Nominal):类似编程语言中的枚举类型,变量只能从有限的选项中选取,比如前面例子中的“婚姻情况”,只能是“单身”,“已婚”或“离婚”,使用“=”来分割。
5.3 如何评估分割点的好坏?
如果一个分割点可以将当前的所有节点分为两类,使得每一类都很“纯”,也就是同一类的记录较多,那么就是一个好分割点。
比如上面的例子,“拥有房产”,可以将记录分成了两类,“是”的节点全部都可以偿还债务,非常“纯”;“否”的节点,可以偿还贷款和无法偿还贷款的人都有,不是很“纯”,但是两个节点加起来的纯度之和与原始节点的纯度之差最大,所以按照这种方法分割。
构建决策树采用贪心算法,只考虑当前纯度差最大的情况作为分割点。
三、 cart剪枝
1. 为什么要剪枝
-
图形描述
- 横轴表示在决策树创建过程中树的结点总数,纵轴表示决策树的预测精度。
- 实线显示的是决策树在训练集上的精度,虚线显示的则是在一个独立的测试集上测量出来的精度。
- 随着树的增长,在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降。
-
出现这种情况的原因:
- 原因1:噪声、样本冲突,即错误的样本数据。
- 原因2:特征即属性不能完全作为分类标准。
- 原因3:巧合的规律性,数据量不够大。
**剪枝 (pruning)**是决策树学习算法对付”
过拟合
“的主要手段。
在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能因训练样本学得”太好”了,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此,
可通过主动去掉一些分支来降低过拟合的风险
。
如何判断决策树泛化性能是否提升呢?
-
可使用前面介绍的留出法,即预留一部分数据用作”验证集”以进行性 能评估。例如对下表的西瓜数据集,我们将其随机划分为两部分,其中编号为 {1,2,3,6, 7, 10, 14, 15, 16, 17} 的样例组成训练集,编号为 {4, 5, 8, 9, 11, 12, 13} 的样例组成验证集。
假定咱们采用信息增益准则来划分属性选择,则上表中训练集将会生成一棵下面决策树。
为便于讨论,我们对圈中的部分结点做了编号。
接下来,我们一起看一下,如何对这一棵树进行剪枝。
2. 常用的减枝方法
决策树剪枝的基本策略有”预剪枝” (pre-pruning)和”后剪枝”(post- pruning) 。
-
预剪枝是
指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点
; -
后剪枝则是
先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察
,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
2.1 预剪枝
首先,基于信息增益准则,我们会选取属性”脐部”来对训练集进行划分,并产生 3 个分支,如下图所示。然而,是否应该进行这个划分呢?预剪枝要对划分前后的泛化性能进行估计。
在划分之前,所有样例集中在根结点。
- 若不进行划分,该结点将被标记为叶结点,其类别标记为训练样例数最多的类别,假设我们将这个叶结点标记为”好瓜”。
-
用前面表的验证集对这个单结点决策树进行评估。则编号为 {4,5,8} 的样例被分类正确。另外 4个样例分类错误,于是验证集精度为
37
∗
100
%
=
42.9
%
\frac{3}{7}*100\% = 42.9\%
7
3
∗
1
0
0
%
=
4
2
.
9
%
。
在用属性”脐部”划分之后,上图中的结点2、3、4分别包含编号为 {1,2,3, 14}、 {6,7, 15, 17}、 {10, 16} 的训练样例,因此这 3 个结点分别被标记为叶结点”好瓜”、 “好瓜”、 “坏瓜”。
此时,验证集中编号为 {4, 5, 8,11, 12} 的样例被分类正确,验证集精度为
5
7
∗
100
%
=
71.4
%
>
42.9
%
\frac{5}{7}*100\% = 71.4\% > 42.9\%
7
5
∗
1
0
0
%
=
7
1
.
4
%
>
4
2
.
9
%
.
于是,用”脐部”进行划分得以确定。
然后,决策树算法应该对结点2进行划分,基于信息增益准则将挑选出划分属性”色泽”。然而,在使用”色泽”划分后,编号为 {5} 的验证集样本分类结果会由正确转为错误,使得验证集精度下降为 57.1%。于是,预剪枝策略将禁 止结点2被划分。
对结点3,最优划分属性为”根蒂”,划分后验证集精度仍为 71.4%.
这个划分不能提升验证集精度,于是,预剪枝策略禁止结点3被划分
。
对结点4,其所含训练样例己属于同一类,不再进行划分.
于是,基于预剪枝策略从上表数据所生成的决策树如上图所示,其验证集精度为 71.4%. 这是一棵仅有一层划分的决策树,亦称”决策树桩” (decision stump).
2.2 后剪枝:
后剪枝先从训练集生成一棵完整决策树,继续使用上面的案例,从前面计算,我们知前面构造的决策树的验证集精度为42.9%。
后剪枝首先考察结点6,
若将其领衔的分支剪除则相当于把6替换为叶结点
。替换后的叶结点包含编号为 {7, 15} 的训练样本,于是该叶结点的类别标记为”好瓜”,此时决策树的验证集精度提高至 57.1%。于是,后剪枝策略决定剪枝,如下图所示。
然后考察结点5,若将其领衔的子树替换为叶结点,则替换后的叶结点包含编号为 {6,7,15}的训练样例,叶结点类别标记为”好瓜’;此时决策树验证集精度仍为 57.1%. 于是,可以不进行剪枝.
对结点2,若将其领衔的子树替换为叶结点,则替换后的叶结点包含编号 为 {1, 2, 3, 14} 的训练样例,叶结点标记为”好瓜”此时决策树的验证集精度提高至 71.4%. 于是,后剪枝策略决定剪枝.
对结点3和1,若将其领衔的子树替换为叶结点,则所得决策树的验证集 精度分别为 71.4% 与 42.9%,均未得到提高,于是它们被保留。
最终,基于后剪枝策略所生成的决策树就如上图所示,其验证集精度为 71.4%。
对比两种剪枝方法,
- 后剪枝决策树通常比预剪枝决策树保留了更多的分支。
- 一般情形下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。
- 但后剪枝过程是在生成完全决策树之后进行的。 并且要自底向上地对树中的所有非叶结点进行逐一考察,因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.
3. 小结
-
剪枝原因【了解】
- 噪声、样本冲突,即错误的样本数据
- 特征即属性不能完全作为分类标准
- 巧合的规律性,数据量不够大。
-
常用剪枝方法【知道】
-
预剪枝
-
在构建树的过程中,同时剪枝
- 限制节点最小样本数
- 指定数据高度
- 指定熵值的最小值
-
在构建树的过程中,同时剪枝
-
后剪枝
- 把一棵树,构建完成之后,再进行从下往上的剪枝
-
预剪枝
四、决策树算法api
-
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
-
criterion
- 特征选择标准
- “gini”或者”entropy”,前者代表基尼系数,后者代表信息增益。一默认”gini”,即CART算法。
-
min_samples_split
- 内部节点再划分所需最小样本数
- 这个值限制了子树继续划分的条件,如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分。 默认是2.如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。我之前的一个项目例子,有大概10万样本,建立决策树时,我选择了min_samples_split=10。可以作为参考。
-
min_samples_leaf
- 叶子节点最少样本数
- 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。 默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比。如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5,仅供参考。
-
max_depth
- 决策树最大深度
- 决策树的最大深度,默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,具体的取值取决于数据的分布。常用的可以取值10-100之间
-
random_state
- 随机数种子
-
criterion
五、 案例:泰坦尼克号乘客生存预测
1. 案例背景
泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,例如妇女,儿童和上流社会。 在这个案例中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。
案例:
https://www.kaggle.com/c/titanic/overview
我们提取到的数据集中的特征包括票的类别,是否存活,乘坐班次,年龄,登陆home.dest,房间,船和性别等。
数据:
http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
经过观察数据得到:
-
1 乘坐班是指乘客班(1,2,3),是社会经济阶层的代表
。 -
2 其中age数据存在缺失
。
2. 步骤分析
1.获取数据
2.数据基本处理
2.1 确定特征值,目标值
2.2 缺失值处理
2.3 数据集划分
3.特征工程(字典特征抽取)
4.机器学习(决策树)
5.模型评估
3 代码实现
- 导入需要的模块
import pandas as pd
import numpy as np
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
- 1.获取数据
# 1、获取数据
titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
-
2.数据基本处理
- 2.1 确定特征值,目标值
x = titan[["pclass", "age", "sex"]] y = titan["survived"]
- 2.2 缺失值处理
# 缺失值需要处理,将特征当中有类别的这些特征进行字典特征抽取 x['age'].fillna(x['age'].mean(), inplace=True)
- 2.3 数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
-
3.特征工程(字典特征抽取)
特征中出现类别符号,需要进行one-hot编码处理(DictVectorizer)
x.to_dict(orient=“records”) 需要将数组特征转换成字典数据
# 对于x转换成字典数据x.to_dict(orient="records")
# [{"pclass": "1st", "age": 29.00, "sex": "female"}, {}]
transfer = DictVectorizer(sparse=False)
x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.fit_transform(x_test.to_dict(orient="records"))
- 4.决策树模型训练和模型评估
决策树API当中,如果没有指定max_depth那么会根据信息熵的条件直到最终结束。这里我们可以指定树的深度来进行限制树的大小
# 4.机器学习(决策树)
estimator = DecisionTreeClassifier(criterion="entropy", max_depth=5)
estimator.fit(x_train, y_train)
# 5.模型评估
estimator.score(x_test, y_test)
estimator.predict(x_test)
决策树的结构是可以直接显示
4. 决策树可视化
4.1 保存树的结构到dot文件
-
sklearn.tree.export_graphviz() 该函数能够导出DOT格式
- tree.export_graphviz(estimator,out_file=’tree.dot’,feature_names=[‘’,’’])
export_graphviz(estimator, out_file="./data/tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])
dot文件当中的内容如下
digraph Tree {
node [shape=box] ;
0 [label="petal length (cm) <= 2.45\nentropy = 1.584\nsamples = 112\nvalue = [39, 37, 36]"] ;
1 [label="entropy = 0.0\nsamples = 39\nvalue = [39, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="petal width (cm) <= 1.75\nentropy = 1.0\nsamples = 73\nvalue = [0, 37, 36]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="petal length (cm) <= 5.05\nentropy = 0.391\nsamples = 39\nvalue = [0, 36, 3]"] ;
2 -> 3 ;
4 [label="sepal length (cm) <= 4.95\nentropy = 0.183\nsamples = 36\nvalue = [0, 35, 1]"] ;
3 -> 4 ;
5 [label="petal length (cm) <= 3.9\nentropy = 1.0\nsamples = 2\nvalue = [0, 1, 1]"] ;
4 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
5 -> 6 ;
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
5 -> 7 ;
8 [label="entropy = 0.0\nsamples = 34\nvalue = [0, 34, 0]"] ;
4 -> 8 ;
9 [label="petal width (cm) <= 1.55\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ;
3 -> 9 ;
10 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ;
9 -> 10 ;
11 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
9 -> 11 ;
12 [label="petal length (cm) <= 4.85\nentropy = 0.191\nsamples = 34\nvalue = [0, 1, 33]"] ;
2 -> 12 ;
13 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
12 -> 13 ;
14 [label="entropy = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ;
12 -> 14 ;
}
那么这个结构不能看清结构,所以可以在一个网站上显示
4.2 网站显示结构
将dot文件内容复制到该网站当中显示
5. 决策树总结
-
优点:
- 简单的理解和解释,树木可视化。
-
缺点:
- 决策树学习者可以创建不能很好地推广数据的过于复杂的树,容易发生过拟合。
-
改进:
- 减枝cart算法
- 随机森林(集成学习的一种)
注:企业重要决策,由于决策树很好的分析能力,在决策过程应用较多, 可以选择特征
六、回归决策树
前面已经讲到,关于数据类型,我们主要可以把其分为两类,
连续型数据和离散型数据
。在面对不同数据时,决策树也可以分为两大类型:
- 分类决策树和回归决策树。
- 前者主要用于处理离散型数据,后者主要用于处理连续型数据。
1.原理概述
不管是回归决策树还是分类决策树,都会存在两个核心问题:
- 如何选择划分点?
- 如何决定叶节点的输出值?
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中,我们采用信息论中的方法,通过计算选择最佳划分点。
而在回归树中,采用的是启发式的方法。
假如我们有n个特征,每个特征有
s
i
(
i
∈
(
1
,
n
)
)
s_i(i\in (1,n))
s
i
(
i
∈
(
1
,
n
)
)
个取值,那我们遍历所有特征,尝试该特征所有取值,对空间进行划分,直到取到特征 j 的取值 s,使得损失函数最小,这样就得到了一个划分点
。描述该过程的公式如下:
假设将输入空间划分为M个单元:
R
1
,
R
2
,
.
.
.
,
R
m
R_1,R_2,…,R_m
R
1
,
R
2
,
.
.
.
,
R
m
那么每个区域的输出值就是:
c
m
=
a
v
g
(
y
i
∣
x
i
∈
R
m
)
c_m=avg(y_i|x_i\in R_m)
c
m
=
a
v
g
(
y
i
∣
x
i
∈
R
m
)
也就是该区域内所有点y值的平均数。
举例:
如下图,假如我们想要对楼内居民的年龄进行回归,将楼划分为3个区域
R1
,
R
2
,
R
3
R_1,R_2,R_3
R
1
,
R
2
,
R
3
(红线),那么
R1
R_1
R
1
的输出就是第一列四个居民年龄的平均值,
R2
R_2
R
2
的输出就是第二列四个居民年龄的平均值,
R3
R_3
R
3
的输出就是第三、四列八个居民年龄的平均值。
2.算法描述
- 输入:训练数据集D:
- 输出:回归树f(x)f(x).
-
在训练数据集所在的输入空间中,递归的将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉决策树:
-
(1)选择最优切分特征jj与切分点
ss
s
,求解
遍历特征
jj
j
,对固定的切分特征
jj
j
扫描切分点
ss
s
,选择使得上式达到最小值的对
(j
,
s
)
(j,s)
(
j
,
s
)
. -
(2)用选定的对(j,s)(j,s)划分区域并决定相应的输出值:
-
(3)继续对两个子区域调用步骤(1)和(2),直至满足停止条件。
-
(4)将输入空间划分为M个区域
R1
,
R
2
,
.
.
.
,
R
M
R_1, R_2,…, R_M
R
1
,
R
2
,
.
.
.
,
R
M
, 生成决策树:
-
3. 简单实例
为了易于理解,接下来通过一个简单实例加深对回归决策树的理解。
训练数据见下表,目标是得到一棵最小二乘回归树。
3.1 实例计算过程
(1)选择最优的切分特征j与最优切分点s:
-
确定第一个问题:选择最优切分特征:
- 在本数据集中,只有一个特征,因此最优切分特征自然是x。
-
确定第二个问题:我们考虑9个切分点
[1.5
,
2.5
,
3.5
,
4.5
,
5.5
,
6.5
,
7.5
,
8.5
,
9.5
]
[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5]
[
1
.
5
,
2
.
5
,
3
.
5
,
4
.
5
,
5
.
5
,
6
.
5
,
7
.
5
,
8
.
5
,
9
.
5
]
。
损失函数定义为平方损失函数
Lo
s
s
(
y
,
f
(
x
)
)
=
(
f
(
x
)
−
y
)
2
Loss(y,f(x))=(f(x)-y)^2
L
o
s
s
(
y
,
f
(
x
)
)
=
(
f
(
x
)
−
y
)
2
,将上述9个切分点依此代入下面的公式,其中
cm
=
a
v
g
(
y
i
∣
x
i
∈
R
m
)
c_m=avg(yi|xi\in R_m)
c
m
=
a
v
g
(
y
i
∣
x
i
∈
R
m
)
a、计算子区域输出值:
例如,取 s=1.5。此时R1={1},R2={2,3,4,5,6,7,8,9,10}R1=1,R2=2,3,4,5,6,7,8,9,10,这两个区域的输出值分别为:
-
c1
=
5.56
c
1
=
5.56
c1=5.56c1=5.56
c
1
=
5
.
5
6
c
1
=
5
.
5
6
-
c2
=
(
5.7
+
5.91
+
6.4
+
6.8
+
7.05
+
8.9
+
8.7
+
9
+
9.05
)
/
9
=
7.50
c2=(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)/9=7.50
c
2
=
(
5
.
7
+
5
.
9
1
+
6
.
4
+
6
.
8
+
7
.
0
5
+
8
.
9
+
8
.
7
+
9
+
9
.
0
5
)
/
9
=
7
.
5
0
同理,得到其他各切分点的子区域输出值,如下表:
b、计算损失函数值,找到最优切分点:
把c1,c2c1,c2的值代入到同平方损失函数
L
o
s
s
(
y
,
f
(
x
)
)
=
(
f
(
x
)
−
y
)
2
Loss(y,f(x))=(f(x)-y)^2
L
o
s
s
(
y
,
f
(
x
)
)
=
(
f
(
x
)
−
y
)
2
,
当s=1.5时,
同理,计算得到其他各切分点的损失函数值,可获得下表:
显然取 s=6.5时,m(s)最小。因此,第一个划分变量【j=x,s=6.5】
(2)用选定的(j,s)划分区域,并决定输出值
;
-
两个区域分别是:
R1
=
{
1
,
2
,
3
,
4
,
5
,
6
}
,
R
2
=
{
7
,
8
,
9
,
10
}
R1=\{1,2,3,4,5,6\},R2=\{7,8,9,10\}
R
1
=
{
1
,
2
,
3
,
4
,
5
,
6
}
,
R
2
=
{
7
,
8
,
9
,
1
0
}
- 输出值$c_m=avg(yi|xi\in Rm),c1=6.24,c2=8.91
(3)调用步骤 (1)、(2),继续划分
:
(4)生成回归树
假设在生成3个区域之后停止划分,那么最终生成的回归树形式如下:
3.2 回归决策树和线性回归对比
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn import linear_model
# 生成数据
x = np.array(list(range(1, 11))).reshape(-1, 1)
y = np.array([5.56, 5.70, 5.91, 6.40, 6.80, 7.05, 8.90, 8.70, 9.00, 9.05])
# 训练模型
model1 = DecisionTreeRegressor(max_depth=1)
model2 = DecisionTreeRegressor(max_depth=3)
model3 = linear_model.LinearRegression()
model1.fit(x, y)
model2.fit(x, y)
model3.fit(x, y)
# 模型预测
X_test = np.arange(0.0, 10.0, 0.01).reshape(-1, 1) # 生成1000个数,用于预测模型
X_test.shape
y_1 = model1.predict(X_test)
y_2 = model2.predict(X_test)
y_3 = model3.predict(X_test)
# 结果可视化
plt.figure(figsize=(10, 6), dpi=100)
plt.scatter(x, y, label="data")
plt.plot(X_test, y_1,label="max_depth=1")
plt.plot(X_test, y_2, label="max_depth=3")
plt.plot(X_test, y_3, label='liner regression')
plt.xlabel("data")
plt.ylabel("target")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()
结果展示
4. 小结