数据挖掘决策树..docxVIP

下载本文档

15
0
约 9页
2017-01-06 发布于重庆
举报
版权申诉

数据挖掘决策树..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘决策树.

数据挖掘——决策树算法数据挖掘——决策树算法书本DATA Mining concepts and techniques third edition 关于决策树的描述算法Generation_decision_tree的创建过程如下：创建一个节点NIF D的元组都在同一类C中，then返回N作为叶节点，以类C标记IF attribute_list为空，then返回N作为叶节点，标记D中的多数类使用Attribute_lselection_method(D, attribute_list)找出最好的splitting_criterion用splitting_criterion标记节点NIF splitting_criterion是离散值，并且多路划分，删除分裂属性For splitting_criterion的每个输出j:设Dj中D满足输出j的数据元组的集合，if Dj为空，加一个树叶到节点N，标记为D中的多数类，else 加一个由Generation_decision_tree(D, attribute_list)返回的节点到N返回N在实际操作中，选取数据很重要，决策树是分类算法，在网/ml//ml/选取数据时，选择Classification类，由于第一次做数据分析，以及对R语言不懂，对于数据的属性类Attributes选择在5~10之间，最终数据定位在BreastTissue，Auto-Mpg，car三个数据之一在数据的导入过程，各种数据类型不一样，导入的方式不一样，最终各种尝试之后，选择导入text文本文档在这个过程还是属性跟数值对不齐，至于数据框输入实现不了，Attribute有七个，但是数值有1728个手动输入是不可行的R语言实现过程，参照Generation_decision_tree的创建过程，通过先用c实现，再根据c结构试探性用r构造，期间参考了Python对于决策树算法的实现过程，以及实际案例Iris的实际案例。1）数据输入以及数据判断是否合理,计算刚开始类别的Info(熵)2）计算训练集合D对特征值A的条件熵3）计算训练集合D对特征值A的信息增益4）根据训练集合生成决策树：先根据之前的分类统计类别出现次数，然后进行排序过D中都属于同一类，那么树就是单节点树，如果属性向量为空，那么将D频数最高的类返回，计算属性向量中各特征值对D的信息增益，选择信息增益最大的特征值Ag及其信息增益如果最大信息增益小于阈值e，将D中频数最高的类别返回，否则，对Ag的每一可能值ai，依Ag=ai将D分割为若干非空子集Di，将Di中实例数最大的类作为标记，构建子节点由节点及其子节点构成树T，返回T，然后递归调用，提出已使用的属性5）出现问题，理论上可行但是在实际用的过程，return总是出错，重复调用有问题，还有就是在开始用的数据包有但是不知道怎么把构建的树画出来在分析这个简单数据的过程中，决策树的构建过程已经掌握，用C可以实现构造，但是没有掌握R的而且指令语法都不熟，只能进行少数据手动输入的简单分析，对于大数据数据导入的分析存在难度，问题症结所在是对R的不熟悉，对于数据的预处理，理论上掌握，手动输入少量数据也可以实现，但是对于数据大规模整体导入，也有点觉得束手无策，解决的办法就是尽快熟练掌握R语言。数据挖掘技术——决策树决策树是通过一系列规则对数据进行分类的过程。建决策树，首先根据记录字段的不同取值建立树的分支，以及在每个分支子集中重复建立下层结点和分支。对于建立分支时对记录字段不同取值的选择，采用information gain进行属性选择。ID3是基于信息熵的决策树分类算法，该算法是根据属性集的取值选择实例的类别。它的核心是在决策树中各级结点上选属性，用信息增益率作为属性选择标准，使得在每一非叶结点进行测试时，能获得关于被测试例子最大的类信息。使用该属性将例子集分成子集后，系统的熵值最小，期望该非叶结点到达各后代叶节点的平均路径最短，我们组选用数据为是新切除的组织从乳房样品的电阻抗测量数据集，对其构造决策树。首先应当对数据进行分类，用information gain进行属性分类，我们将数据按照属性进行分类之后，计算此分类下的期望l(S1,S2,…,Sm)=-∑ρilog2(ρi)(i=1,…,m，数据集为S，m为S的分类数目, ρi,≈(|Sj|)/(|S|)),计算各个属性的熵，求由属性划分为子集的熵E(A)=∑(S1j+S2j+……,+Smj)/S*I(S1j+S2j+……,+Smj)，(A为属性，具有A个不同的取值)，求出信息增益Gain(A)=l(S1,S2,…,Sm )-E(A)，这时候开始选择Gain(A)最大的也就是E(A)最小的属性A作为根节点，用于划分的属性。对于A不同的取值对应不同E的V个子集Ej 递归调用上