心理测量中数据挖掘课件.ppt

心理测量中数据挖掘课件

在本例中,如果根据年龄来划分,可以分为3个子集,它们的Gini系数分别为 于是可计算属性“年龄”的信息增益为: 采用类似的方法,可以计算属性“学生”的信息增益为: 采用类似的方法, 还可以计算属性“收入”、“信用等级”的信息增益, 然后从所有属性中找到信息增益最大的属性,将它作为划分的对象。 3.2.4决策树的剪枝 如果建立的决策树的构造过于复杂,则对应的知识规则将是难以理解和应用的, 因此对于决策树的建立,不仅需要考虑分类的正确性, 还要考虑决策树的复杂程度,即在保证一定的分类正确率条件下,决策树越简单越好。 最常用的决策树简化方法就是剪枝, 包括预剪枝与后剪枝。 预剪枝是预先设定某一相关阈值,决策树达到该阈值后就停止树的生长。 该方法比较简单,但预先指定阈值相当困难。 后剪枝是对已经建立的决策树 以一定的标准进行剪枝, 使决策树得以简化, 但仍具有一定的分类正确率。 CART算法采用后剪枝法。 具体方法为: 针对未经剪枝的决策树T,运用算法将其某一个或几个子树删除,得到新的决策树 j,然后对于多种不同剪枝的结果 j进行比较,找出最好的剪枝形式。 剪枝过程中删除的子树将用叶结点代替,这个叶结点所属的类 用这棵子树中大多数训练实例所属的类来代替。 4、来华留学生跨文化适应性测量的数据挖掘 我们通过问卷调查

文档评论(0)

1亿VIP精品文档

相关文档