模式识别期末论文9精编.doc

深圳大学研究生课程:模式识别理论与方法 课程作业实验报告 实验名称:Classification and Regression Tree 实验编号:Proj08-01 姓 名:萧嘉慰 学 号:2110130216 规定提交日期:2012年7月14 日 实际提交日期:2012年7月13日 摘 要:本实验编程实现了分类回归树算法,采用非剪枝完全树分类和进行进行非二叉分支。 实验内容: 写一个生成二叉分类树的通用程序,并使用课本 359页的表中的数据来训练该树,使用熵 不纯度进行分支。 (a) 采用非剪枝完全树分类下列模式: {A,E,I,L,N}, {D,E,J,K,N}, {B,F,J,K,M}, {C,D,J,L,N}。 (b) 对叶节点进行剪枝,使剪枝后树的不纯度的增加尽可能小。 (c) 修改程序,使之可以进行非二叉分支,以生成多叉树。其中每个节点的分叉数可根据该节点 在训练时的情况进行自动确定。 用增益比不纯度重新训练生成一个新树, 并用该树重新对(a)进行分类。 技术论述: 分类回归树算法其采用基于最小距离的基尼指数估计函数, 这是因为基尼指数可以单独考虑子数据集中类属性的分布情况, 用来决定由该子数据集生成的决策树的拓展形状。CART创建简单二叉树结构对新事例进行分类, 这样可以有效地处理缺失

文档评论(0)

1亿VIP精品文档

相关文档