决策树与模型评估教材.pptVIP

下载本文档

123
0
约 64页
2016-01-20 发布于贵州
举报

决策树与模型评估教材.ppt

决策树与模型评估教材

比较两种分类法的性能令表示分类技术在第 j 次迭代产生的模型，每对模型和在相同的划分j 上进行检验。用e1j和e2j分别表示它们的错误率，它们在第j折上的错误率之差可以记作。如果k充分大，则服从于均值为、方差为的正态分布。观察差的总方差可以用下式进行估计：其中，是平均差。用t分布计算的置信区间为：例：假设两个分类技术产生的模型的准确率估计差的均值等于0.05，标准差等于0.002。如果使用30折交叉验证方法估计准确率，则在95%置信水平下，真实准确率为：统计显著查询t分布表 * 3、连续属性的划分 1.使用二元划分 2.划分点v选择 N个记录中所有属性值作为划分点 3.对每个划分进行类计数, A v 和 A ? v 4.计算每个候选点v的Gini指标，并从中选择具有最小值的候选划分点 5.时间复杂度为O(n2) 降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O（NlogN） 4、增益率熵和Gini指标等不纯性度量趋向有利于具有大量不同值的属性。性别男女车型家用运动豪华 C0:6 C1:4 C0:4 C1:6 C0:1 C1:

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

决策树与模型评估教材.pptVIP