决策树避免过拟合的方法以及优缺点

1.约束决策树

约束决策树可以根据情况来选择或组合

对每个节点或子树进行裁剪，适用算法评估裁剪前后决策树模型对数据的预测能力是否降低，若没有降低则说明可以剪枝。

（1）错误率降低剪枝

使用某种顺序遍历节点，删除以此结点为根的子树。试此节点为叶节点。将训练集中该节点调整出现概率最大的那一类赋予此节点，计算整体误判率或准确率，若比剪枝前好，则剪枝。
（2）悲观剪枝

评估单个节点（非子树）是否裁剪，使用该节点下的所有叶节点的误差值和评估，当裁剪前后的误差率不超过某个标准值，裁剪。
（3）代价复杂度剪枝

Cart使用代价复杂度剪枝，代价是指样本错分率，复杂度是指树t的叶节点数，定义是如下：

cc（t）=E/N+α

Leaft

其中N为决策树训练样本数，E为决策树错分样本数，Leaft为t子树的叶子数，参数α用来衡量代价与复杂度关系，表示减值后树的复杂度降低的程度与代价间的关系。对于t子树，剪去其子树s，用t中最优叶节点代替，得到新树new_t。New_t会比t对于训练数据分错M个，但是new_t包含的叶节点数比t少Leaf_s-1个。领替换之后代价复杂度相等：

cc(t)=cc(new_t)=>E/N+αLeaft=(E+M)/N+α

[leaft-(leafs-1)]=>α=M/N(leafs-1)。

M为用叶节点替换t的s子树后，增加的分错样本数，leafs是子树s的叶节点数。

剪枝步骤：

N’为剪枝集的大小，Ei为树Ti对剪枝集的错分数，E’=min{Ei}

最佳剪枝树为Tbest是满足如下条件且包含节点数最少的那颗剪枝树：Ei<=E’+SE(E’)

优势：简单易懂，可处理数值和类别两种类型的数据，只需要少量的训练集即可使用，使用白盒模型，可清洗观察每个步骤，对大数据量的处理性能较好，更贴近人类思维。
劣势：准确性不如其他算法，对连续性字段难预测，特别是时间顺序的数据，需要较多预处理工作，树的稳定性不足，训练集的小变化可能引起整个树的巨变，容易过拟合，决策树处理包含不同数值类别的特征数据时，容易倾向选择取值更多的特征作为分割节点，对字段特立化严重的数据更容易出现过拟合且类别越多错误或增加更加快。