- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验二-决策树实验-实验告实验二-决策树实验-实验报告
决策树实验
一、实验原理
决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输入,而每个树叶结点代表类或类分布。数的最顶层结点是根结点。一棵典型的决策树如图1所示。它表示概念buys_computer,它预测顾客是否可能购买计算机。内部结点用矩形表示,而树叶结点用椭圆表示。为了对未知的样本分类,样本的属性值在决策树上测试。决策树从根到叶结点的一条路径就对应着一条合取规则,因此决策树容易转化成分类规则。
图1
ID3算法:
■???? 决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。
■???? 每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。
■???? 采用信息增益来选择能够???好地将样本分类的属性。
信息增益基于信息论中熵的概念。ID3总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。
二、算法伪代码
算法Decision_Tree(data,AttributeName)
输入由离散值属性描述的训练样本集data;
候选属性集合AttributeName。
输出一棵决策树。
(1) 创建节点N;
(2) If samples 都在同一类C中then
(3) 返回N作为叶节点,以类C标记;
(4) If attribute_list为空then
(5) 返回N作为叶节点,以samples 中最普遍的类标记;//多数表决
(6) 选择attribute_list 中具有最高信息增益的属性test_attribute;
(7) 以test_attribute 标记节点N;
(8) For each test_attribute 的已知值v //划分 samples
(9) 由节点N分出一个对应test_attribute=v的分支;
(10令Sv为 samples中 test_attribute=v 的样本集合;//一个划分块
(11)If Sv为空 then
(12)加上一个叶节点,以samples中最普遍的类标记;
(13)Else 加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值。
三、实验数据预处理
Age:30岁以下标记为“1”;30岁以上50岁以下标记为“2”;50岁以上标记为“3”。
Sex:FEMAL----“1”;MALE----“2”
Region:INNER CITY----“1”;TOWN----“2”; RURAL----“3”; SUBURBAN----“4”
Income:5000~2万----“1”;2万~4万----“2”;4万以上----“3”
Married
Children
Car
Mortgage
Pep:以上五个条件,若为“是”标记为“1”,若为“否”标记为“2”。
Age sex region income married children car mortgage pep
1 2 1 1 2 1 1 2 2
1 2 1 1 2 2 2 2 1
2 1 4 1 2 1 2 2 1
2 1 1 1 1 2 2 2 2
1 2 1 1 1 2 2 2 2
1 2 1 1 2 1 2 1 1
2 1 2 1 1 2 1 1 2
2 1 1 1 2 1 1 2 1
2 1 3 1 2 2 1 2 1
2 1 2 2 2 1 2 2 2
2 2 1 2 2 2 2 1 1
2 1 2 2 1 1 2 1 1
2 2 1 2 1 2 2 1 2
1 1 1 2 1 2 2 2 1
3 2 1 2 1 1 1 2 2
1 1 1 2 1 1 1 2 1
1 1 3 2 2 2 1 2 1
3 1 2 2 1 2 2 2
文档评论(0)