决策树算法实验报告.docxVIP

下载本文档

2851
0
约3.93千字
约 13页
2019-04-27 发布于贵州
举报
版权申诉

决策树算法实验报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树算法实验报告　　实验三决策树算法实验　　一、实验目的：熟悉和掌握决策树的分类原理、实质和过程；掌握典型的学习算法和实现技术。　　二、实验原理:决策树学习和分类.　　三、实验条件：　　四、实验内容：　　1根据现实生活中的原型自己创建一个简单的决策树。　　2要求用这个决策树能解决实际分类决策问题。　　五、实验步骤：　　1、验证性实验：　　算法伪代码　　算法Decision_Tree(data,AttributeName)输入由离散值属性描述的训练样本集data;候选属性集合AttributeName。　　输出一棵决策树。创建节点N；　　Ifsamples都在同一类C中then返回N作为叶节点，以类C标记；Ifattribute_list为空then　　返回N作为叶节点，以samples中最普遍的类标记；//多数表决选择attribute_list中具有最高信息增益的属性test_attribute;以test_attribute标记节点N；　　Foreachtest_attribute的已知值v//划分samples；　　由节点N分出一个对应test_attribute=v的分支；　　IfSv为空then　　加上一个叶节点，以samples中最普遍的类标记；　　Else加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值。　　实验数据预处理　　Age:30岁以下标记为“1”；30岁以上50岁以下标记为“2”；50岁以上标记为“3”。Sex：FEMAL----“1”；MALE----“2”　　Region：INNERCITY----“1”；TOWN----“2”；RURAL----“3”；SUBURBAN----“4”Income：5000~2万----“1”；2万~4万----“2”；4万以上----“3”MarriedChildrenCarMortgage　　Pep：以上五个条件，若为“是”标记为“1”，若为“否”标记为“2”。Agesexregionincomemarriedchildrencarmortgagepep　　　　　　214　　211　　121　　121　　212　　211　　213　　212　　221　　212　　221　　111　　321　　111　　113　　312　　323　　322　　313　　321　　321　　112　　　　　　　　Matlab语句：　　[TreeRulesMatrix]=DecisionTree(DataSet,AttributName)；　　六、实验结果：　　决策树实验　　一、实验原理　　决策树是一个类似于流程图的树结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输入，而每个树叶结点代表类或类分布。数的最顶层结点是根结点。一棵典型的决策树如图1所示。它表示概念buys_computer，它预测顾客是否可能购买计算机。内部结点用矩形表示，而树叶结点用椭圆表示。为了对未知的样本分类，样本的属性值在决策树上测试。决策树从根到叶结点的一条路径就对应着一条合取规则，因此决策树容易转化成分类规则。　　图1　　ID3算法：　　■决策树中每一个非叶结点对应着一个非类别属性，树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。■每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。■采用信息增益来选择能够最好地将样本分类的属性。　　信息增益基于信息论中熵的概念。ID3总是选择具有最高信息增益的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小，并反映划分的最小随机性或“不纯性”。　　二、算法伪代码　　算法Decision_Tree(data,AttributeName)　　输入由离散值属性描述的训练样本集data;　　候选属性集合AttributeName。　　输出一棵决策树。　　创建节点N；　　Ifsamples都在同一类C中then　　返回N作为叶节点，以类C标记；　　Ifattribute_list为空then　　返回N作为叶节点，以samples中最普遍的类标记；//多数表决　　选择attribute_list中具有最高信息增益的属性test_attribute;　　以test_attribute标记节点N；　　Foreachtest_attribute的已知值v//划分samples　　由节点N分出一个对应test_attribute=v的分支；　　IfSv为空then　　加上一个叶节