决策树模型比较:C4.5,CART,CHAID,QUEST

(1)C4.5算法的特点为:

输入变量(自变量):为分类型变量或连续型变量。

输出变量(模板变量):为分类型变量。

连续变量处理:N等分离散化。

树分枝类型:多分枝。

分裂指标:信息增益比率gain ratio(分裂后的目标变量取值变异较小,纯度高)

前剪枝:叶节点数是否小于某一阈值。

后剪枝:使用置信度法和减少-误差法。

(2)CART算法的特点为:

输入变量(自变量):为分类型变量或连续型变量。

输出变量(目标变量):为分类型变量(或连续型:回归分析)

连续变量处理:N等分离散化。

树分枝类型:二分枝。

分裂指标:gini增益(分裂后的目标变量取值变异较小,纯度高)。

前剪枝:maxdepth,minsplit,minbucket,mincp

后剪枝:使用最小代价复杂度剪枝法(MCCP)

(3)条件推理决策树(CHAID,QUEST)算法的特点为:

输入变量(自变量):为分类变量或连续型变量。

输出变量(目标变量):为分类型变量(或连续型:回归分析)。

连续变量处理:N等分离散化。

树分枝类型:二分枝(以party包中的ctree函数为例)。

分裂指标:独立性检验和相关性(分裂后自变量与目标变量的相关性)

 

文章来自:http://www.cnblogs.com/payton/p/4272100.html
© 2021 jiaocheng.bubufx.com  联系我们
ICP备案:鲁ICP备09046678号-3