用于分类与预测的决策树分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用于分类与预测的决策树分析

上海精神医学2015年第27卷第2期 • 55 • • 精神医学中的生物统计学(26) • 用于分类与预测的决策树分析 Yan-yan SONG1,2*, Ying LU2,3 概述:决策树是一种常用的数据挖掘方法,用于多变量分析时建立分类系统或制定预测结果变量的算法。 此方法将一个数据群分割成分枝状节段,构造出包括根节点、内部节点和叶节点的倒置形树状模型。该 算法运用非参数方法,不需要套用任何复杂的参数模型就能有效地处理大型复杂的数据库。当样本足够 大时,可将研究数据分为训练数据集和验证数据集。使用训练数据集构建决策树模型,使用验证数据集 来决定树的适合大小,以获得最优模型。本文介绍了构建决策树的常用算法(包括 , , CART C4.5 CHAID 和 QUEST),并描述了 SPSS 和 SAS 软件中将树结构可视化的程序。 关键词:决策树;数据挖掘;分类;预测 [ 该文仅为英文文章的中文翻译版本 ,引用此文为参考文献请写: Song YY, Lu Y. Decision tree methods: applications for classification and prediction. Shanghai Arch Psychiatry. 2015; 27(2): 130-135. doi: /10.11919/j.issn.1002-0829.215044] 1. 引言 • 处理缺失值:一种常见但并不正确的处理缺失 数据挖掘是从大型数据库中提取有用的信息,并 值的方法是排除有缺失值的样本,这种方法不 将这些信息展示为易于理解的可视化形式。决策树模 仅仅低效,而且可能会给分析带来偏倚。决策 树分析可以从两个方面解决缺失值问题:它可 型最早于 1960 年被提出,是数据挖掘的最有效方法之 以将缺失值处理为一个单独的类别,与别的类 一。由于决策树模型易于使用,不易导致歧义,甚至 别进行分析;或者将有缺失的变量作为结果变 在有缺失值的情况下也表现出稳健性,所以目前该方 [1] 量,用预测值填补缺失数据,使用决策树评估 法已在多个学科领域得到了广泛的应用 。自变量和 填补的数据。 结果变量既可以是离散型变量,也可以是连续型变量。 近来,决策树方法在医学领域颇为流行。一个应用决 • 预测:这是决策树的最重要的用途之一。通过 策树方法的例子就是通过不同的临床症状模式诊断患 历史数据建立决策树模型,则可以很方便的预 者的疾病状态,即通过决策树定义分类不同的临床亚 测之后的记录。 型或状态,或决定处于不同状态的患者应接受何种的 • 数据操纵(data manipulation) :在医学研究中, 治疗 [2] 。 某分类变量所分的类别过多或是严重偏态的连 决策树模型常应用于以下几个方面: 续型变量是非常常见的。在这些情况下,决策 树模型可以帮助我们

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档