决策树你技术分类.docxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树你技术分类

决策树分类技术研究 [摘 要】 决策树分类是一种重要的数据分类技术。该文通过对决策树分类方法的研究,进一步讨论了实际使用 过程中决策树学习出现的常见问题的解决方法。为实际应用提供了依据。 【关健词】 决策树;分类 1 引言 数据分类是数据挖掘中的一个重要问题,是一种有效的 KDD分析方法。数据分类通过分析训练集中的数据,对类建立 分类模型,然后利用这个分类模型,把数据库中的数据项映射到 给定类别中。近年来,数据分类技术已被广泛、有效地应用于科 学实验、医疗诊断、气象预报、信贷审核、商业预测等领域,引起 了工业界和学术界的关注。 依据其采用的分类模型,数据分类技术主要可分为:机器学 习方法(如决策树归纳)、统计方法(如贝叶斯分类和贝叶斯网 络)、神经网络方法、遗传算法、粗糙集和模糊逻辑技术等。 上述技术中,决策树技术是利用最广泛的分类技术。它有以 下优点:首先,决策树方法结构简单,便于人们理解;其次,决策 树模型效率高,对训练集数据量较大的情况较为适合;第三,决 策树方法通常不需要受训数据外的知识;第四,决策树方法具有 较高的分类精确度。 同时决策树技术也有一些不足,如对于大型数据库的可伸 缩性问题、对于非平衡数据进行分类时,剪枝会造成精确率的降 低等。 本文主要阐述了决策树分类的基本概念、算法以及实际使 用中如何解决某些常见的问题,如:测试属性选择的度量标准、 连续属性的离散化处理、处理缺少属性值、树剪枝与避免过度拟 合、分类法的准确率评估及提高和决策树的可伸缩性等。 2 决策树算法 2.,决策树的构造方法 决策树是一个类似于流程图的树结构,决策树通过把实例 从根节点排列到某个叶子节点来分类实例,叶子节点即为实例 所属的分类。 树上的每一个节点说明了对实例的某个属性的 测试,并且该节点的每一个后继分支对应于该属性的一个可能 值。决策树构造的基本算法是贪心算法,它以自顶向下递规的方 式构造判定树。算法的基本策略如下: 1)树以代表训练样本的单个节点开始。 2)如果样本都在同一个类,则该节点成为树叶,并用该类 标记。 3)否则,算法使用一种度量标准作为启发信息,选择能够 最好的将样本分类的属性,成为该节点的测试属性。 4)对测试属性的每一个已知的值,创建一个分枝,并据此 划分样本。 5)算法使用同样的过程,递归的形成每个划分上的样本子 决策树。当出现如下情况之一时,递归停止:(a)给定节点的所 有样本属于同一类。(b)没有剩余的属性来进一步划分样本或者 分枝中没有样本,这时使用多数表决,将给定的节点转换为树 叶,并用父节点中多数类来标记它。 2.2测试属性选择的度量标准 J.RossQuinlan提出了ID31% 法。在此算法中采用信息论 中的信息增益(informationgain)来衡量给定的属性区分训练样 例的能力。其计算方法如下:如果目标属性具有。个不同的值, 那么数据样例集S相对于c个状态的分类的嫡定义为Entorpy ⑤二艺Paog=pi;若A是S中的一个属性,Values(A)表示属性A 所有可能的集合,S.是S中属性A的值为v的子集,即S,=IseSI A(s)=v),则属性A相对于样例集合S的信息增益Gain(S,A)被定 义为:Gain(S,A)=Entropy(S)一 艺 怜v.YY州 人】 iIsSddEntropy(S.)·这种方法使 生成的树平均深度较小,从而有较快的分类速度。但是,信息增 益度量存在一个内在偏置,它偏祖具有较多值的属性。 在此基础上,Quinlan又于1993年对ID3算法进行了补充 和改进,提出了更先进的C4.5[2】算法,提出了信息增益率的属 性度量方法。其定义如下: GainRatio(S,A卜 Splulnformation(S,A) 其中,Spiltlnformation(S,A)--i各骨logA 分裂信息(SplitWonnation)用来衡量属性分裂数据的广度 和均匀性,避免了ID3算法所采用的信息增益倾向于选择取值 较多的属性。Quinlan通过试验,对若干属性测试标准做了比较, 发现信息增益率能得到更好的决策树,而且不易产生不平衡的 划分。 除了以上两种方法外,LopezdeMantaras在1991年提出了 基于距离(distance-based)的度量。这个度量标准定义了数据划 分间的一种距离尺度。其效果接近信息增益率的度量效果,且避 免了偏向有大量值的属性。此外,学者们还提出了Relief度量、 J一度量,G统计、X2统计以及最小描述长度(MDL)等多种属性 度量方法。对这些度量方法的研究和比较发现,没有一种度量方 法在属性选择和处理噪声等问题中占有绝对的优势。因此,在实 际构造决策树的过程中,要综合权衡效率和准确率等多种因素 选择恰当的度量方法。 2.3连

文档评论(0)

189****6821 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档