C5.0决策树法在出生缺陷预测中应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国卫生统计 2009年 1O月第 26卷第 5期 C5.0决策树法在出生缺陷预测 中的应用 方俊群 罗家有 姚宽保。 曾春林 方超英 胡茹珊。 杜其云 吴 虹 【提 要】 目的 介绍决策树法的原理及其在出生缺陷预测中的应用,为出生缺陷研究提供一种新的思路。方法 通过 1:2匹配的病例对照研究探讨湖南省前 lO位出生缺陷发生的影响因素;对单因素 logistic回归分析中有统计学意义 的变量采用C5.0决策树算法和判别分析构建预测模型。统计分析软件采用 Clementine11.0和SPSS15.0。结果 决策 树分类结果与实际类别的符合率为83.7%,灵敏度为74.1%,特异度为88.6%;判别分类与实际类别的符合率为64.7%, 灵敏度为54.0%;特异度为70.3%。C5.0决策树法 比判别分析法具有更好的预测效果 ,其判断准确率高于判别分析。 结论 C5.0决策树法构建的出生缺陷预测模型,可获得比传统的判别分析更好的预测效果。通过建立孕妇资料数据库 , 结合专业知识选取高质量的指标,应用决策树法能够对出生缺陷的发生起到较好的预测作用。 【关键词】 出生缺陷 影响因素 决策树 预测模型 数据挖掘(datamining)¨是指从大型数据库中提 预测模型的效率。 取隐含的、非平凡的及有潜在应用价值的信息或规则, 原理与方法 是数据库研究中的一个很有应用价值的新领域,融合 了数据库、人工智能、机器学习、统计学等多个领域的 决策树法是通过确定一系列的if-then的逻辑 (分 理论和技术 。数据挖掘工具能够对将来的趋势和行为 枝)关系,从一组无秩序、无规则的事例 中推理出一套 进行预测,从而更好地支持人们的决策。其常用方法 分层规则,将所有可能发生的结局的概率分布用树形 有人工神经网络、遗传算法、决策树方法等。其中决策 图表达,生成决策树,从而达到对研究对象进行精确预 树方法是利用信息论 中的信息增益寻找数据库中具有 测或正确分类的目的。决策树是一个类似于流程 图的 最大信息量的属性变量 ,建立决策树的一个结点,再根 树结构,树结构中的每个 内部节点代表一个属性上的 据该属性变量的不同取值建立树的分支。每个分支子 测试,每个分枝代表一个测试输出,每个树叶节点代表 集中重复建立树的下层结点和分支的过程。采用决策 一 个类,所以从决策树的根到叶结点的一条路径就对 树,可以将数据规则可视化,也不需要长时间的构造过 应着一条取舍规则,整棵决策树就对应着一组析取表 程,输出结果容易理解,精度较高,因此决策树在知识 达式规则,因此能通过 目标变量预测属性变量。 发现系统中应用较广。虽然决策树算法在经济等领域 目前有多种决策树分析方法,常用主要的决策树 的应用已经非常广泛,但是在医疗领域中,特别是在出 算法有 CRT、QUEST、CHAID、C4.5和C5.0等。其 生缺陷数据分析中的应用尚未见报道。 中最具影响的是 Quinlan于 1986年提出的 ID3(Inter- 随着我国社会经济的快速发展和人民健康水平 的 ativeDichotomicVersion3)算法。ID3算法采用 自顶 提高,出生缺陷已凸现成为我 国一个严重的公共卫生 向下不回溯策略,能保证找到一颗简单的树。 问题,出生缺陷所导致的疾病负担也 日益突出 。出 ID3算法中 ’4,决策属性信息增益的计算方法如 生缺陷将逐渐成为导致儿童死亡、疾病、伤残及影响生 下:设 S是训练样本数据集,中类别表示属性有m个 命质量的重要原因之一,将对我国医疗保健服务体系 独立的取值,即定义

您可能关注的文档

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档