- 123
- 0
- 约 64页
- 2016-01-20 发布于贵州
- 举报
决策树与模型评估教材
比较两种分类法的性能 令 表示分类技术 在第 j 次迭代产生的模型,每对模型 和 在相同的划分j 上进行检验。用e1j和e2j分别表示它们的错误率,它们在第j折上的错误率之差可以记作 。如果k充分大,则 服从于均值为 、方差为 的正态分布。观察差的总方差可以用下式进行估计: 其中, 是平均差。用t分布计算 的置信区间为: 例:假设两个分类技术产生的模型的准确率估计差的均值等于0.05,标准差等于0.002。如果使用30折交叉验证方法估计准确率,则在95%置信水平下,真实准确率为: 统计显著 查询t分布表 * 3、连续属性的划分 1.使用二元划分 2.划分点v选择 N个记录中所有属性值作为划分点 3.对每个划分进行类计数, A v 和 A ? v 4.计算每个候选点v的Gini指标,并从中选择具有最小值的候选划分点 5.时间复杂度为O(n2) 降低计算复杂性的方法: 1.将记录进行排序 2.从两个相邻的排过序的属性值之间选择中间值作为划分点 3.计算每个候选点的Gini值 4.时间复杂度为O(NlogN) 4、增益率 熵和Gini指标等不纯性度量趋向有利于具有大量不同值的属性。 性别 男 女 车型 家用 运动 豪华 C0:6 C1:4 C0:4 C1:6 C0:1 C1:
原创力文档

文档评论(0)