基于决策树医疗数据分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树医疗数据分析

基于决策树医疗数据分析   摘 要:决策树算法从一组无规则、无次序的事例中推理出分类规则,同样适用于医疗数据的挖掘。本文研究基于决策树的乳腺肿瘤医疗数据的分析和挖掘,提高癌症诊断的准确率。   关键词:数据挖掘;决策树;乳腺癌诊断   中图分类号:TP399   随着医疗数字化设备的快速发展,医疗数据库中包括了大量的非结构化的医学图像信息和病人的结构化信息,这些数据为医疗数据的挖掘和分析提供了丰富的信息资源。医疗数据的挖掘旨在从海量的医疗数据中提取出有效的模型、关联、规则、变化以及普遍的规律,加速医生决策诊断的过程和提高其决策诊断的准确度。决策树算法是应用最广的归纳推理算法之一,对噪声数据有很好的健壮性,能够从医疗数据库中发现有价值的信息和知识。   1 决策树算法   1.1 决策树简介   决策树方法是数据挖掘的重要方法之一,它是利用树形结构的特性来对数据进行分类的一种方法。决策树学习从一组无规则、无次序的事例中推理出有用的分类规则,是一种实例为基础的归纳学习算法。决策树首先利用训练数据集合生成一个测试函数,根据不同的权值建立树的分支,即叶子结点,在每个叶子节点下又建立层次结点和分支,如此重利生成决策树,然后对决策树进行剪树处理,最后把决策树转换成规则。决策树的最大优点是直观,以树状图的形式表现预测结果,而且这个结果可以进行解释。决策树主要用于聚类和分类方面的应用。   1.2 常用决策树算法   决策树算法的很多种,其中以ID3算法和C4.5算法应用最广泛。ID3算法根据信息理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,在每个非叶节点选取时,选择信息增益最大的属性作为测试属性。C4.5算法是对ID3算法的改进和扩展。C4.5算法用信息增益率来选择属性,克服了ID3算法在选择属性时偏向于选择取值多的属性的不足;当属性值空缺时,通过使用不同的修剪技术以避免树的过度拟合。   2 乳腺癌医疗数据决策分析   2.1 医疗数据选择   乳腺癌是发病率较高一种恶性肿瘤。乳腺癌致死的主要原因在于恶性肿瘤细胞的转移,淋巴结转移是主要的途径之一,腋窝淋巴是乳腺癌发生转移的最早受累部位,转移的程度是乳腺癌诊断、治疗、放疗和化疗的主要参考依据,也是判断病情是否复发的因素。乳腺B超是乳腺癌早期检测的最可靠的方法。本文选择医院200名乳腺癌病人的在术前、术后、化疗前、化疗后、放疗前和放疗后的B超图像数据作为样本,对图像预处理及特征提取后,作为分类系统挖掘的输入。   2.2 模型评估变量   决策树建模时,最重要的是选择评估变量。根据淋巴结与乳腺癌的关系,评估变量包括病人的基本特征信息(年龄和月经状况)、病情信息(肿瘤部位、病理类型等)、淋巴结信息(B超检查淋巴结状况、淋巴结转移状况和术中发现的淋巴结状况)。各评估变量的定义如表1所示。   表1 模型评估变量定义表   变量名 含义 值标识 变量值   AGE 年龄 ≤30 0   30  AGE45 2   YUEJING 月经状况 有 0   无 1   BUWEI   肿瘤部位 整个 1   乳晕区 2   内上 3   内下 4   外上 5   外下 6   BLSORT   病理类型 粘液癌 1   小叶癌 2   管内癌早侵 3   LBJSTATUS B超检查淋巴结状况 肿大 0   不肿大 1   LBTRANS 淋巴结转移状况 转移 0   不转移 1   SZSTATUS 术中发现的淋巴结状况 肿大 0   不肿大 1   2.3 决策树建模   本文利用SAS软件的Enterprise Miner模块提进行决策树建模,步骤如下:(1)数据输入和抽样。将200名病人的数据输入SAS软件,数据尽量完整。(2)数据特征探索。在进行模型建立时,主要是分析病人的医疗的数据特征,探索出样本数据中各属性变量的分布情况,在不同情况下的分布概率进行统计和分析。(3)数据集划分。由于在进行数据挖掘时,样本数据分为训练数据、验证数据和测试数据。本文将将样本数据分别分成训练集、测试集和验证集,它们在数量上所占的比例4:3:3。(4)数据变量转换。根据表1将数据中的连续变量,转换成分散的变量。比如病人年龄是34岁,肿瘤部位在乳晕区,则它的AGE=1,BUWEI=2。(5)数据替换。虽然缺失值对决策树没有影响,但是为了提高分类结果的正确性,还是借助数据替换模块,以均值代替间隔尺度变量的缺失值,以众数代替分类变量的缺失值。(6)决策树建模。SAS提供了决策树建模的方法,它根据判定标准将评估变量变成不同层次有节点结构,以二叉树的形式显示出来。本文在进行挖掘分析时,分别设置树的最大深度为7,最小叶子观测数为6。   2.4 挖掘结果分析   在分析的200名乳腺癌患者中,有76位确诊为腋窝淋

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档