- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
与临床医学数据挖掘分析相关论文
1DM概述
DM是数据库知识发现(knowledgediscoveryindatabaseKDD)不可缺少的一部分而KDD是将未加工的数据转换为有用信息的整个过程包括一系列转换步骤从数据的预处理到DM的后处理[1]其最早是在1989年举行的第11届美国人工智能协会(americanassociationforartificialintelli-genceAAAI)学术会议上提出的是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术其开发与研究应用是建立在先进的计算机技术、超大规模数据库的出现、对巨大量数据的快速访问、对这些数据应用精深的统计方法计算的能力这4个必要条件基础上的以数据库、人工智能和数理统计三大技术为支柱
2DM的基本模式及在临床医学中的应用
DM的任务通常有两大类:预测任务和描述任务预测任务主要是根据其他属性的值预测特定属性的值主要有分类(classificaion)和回归(regression)2种模式描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)主要有关联分析、聚类分析、异常检测3种模式
2.1预测建模(predictivemodeling)
涉及以说明变量函数的方式为目标变量建立模型有2种模式:分类和回归分类是用于预测离散的目标变量在临床医学中疾病的诊断和鉴别诊断就是典型的分类过程Melgani和Bazi以美国麻省理工学院的心律失常数据库的心电图为原始数据采用不同分类模型对心电图的5种异常波形和正常波形进行分类回归是用于预测连续的目标变量回归可广泛应用于医学研究中如医疗诊断与预后的判别、多因素疾病的病因研究等Burke等采用各种回归模式对影响乳腺癌患者预后的因素进行回归分析
2.2关联分析(associationanalysis)
用来描述数据中强关联特征的模式用于发现隐藏在大型数据集中的令人感兴趣的联系所发现的模式通常用蕴函规则或特征子集的形式表示关联分析主要应用于DNA序列间相似搜索与比较、识别同时出现的基因序列、在患者生理参数分析中的应用、疾病相关因素分析等有学者对37000例肾病患者进行了追踪观察监测肾小球过滤率、尿蛋白水平和贫血状况结果发现以上3种生理指标中的任何一项异常都伴随着心脏病发病率的上升这种肾病与心脏病“关联”的现象可发生在肾病的早期阶段
2.3聚类分析(clusteranalysis)
旨在发现紧密相关的观测值组群使得与属于不同簇的观测值相比属于同一簇的观测值相互之间尽可能类似聚类分析在医学领域中主要用于DNA分析、医学影像数据自动分析以及多种生理参数监护数据分析、中医诊断和方剂研究、疾病危险因素等方面罗礼溥和郭宪国利用聚类分析对云南省25县(市)现有的112种医学革螨的动物地理区划进行分析发现云南省医学革螨的分布明显地受到自然地理区位和特定的自然景观所制约
2.4异常检测(anomalydetection)
用来识别其特征明显不同于其他数据的观测值这样的观测值称为异常点(anomaly)或离群点(outlier)异常检测的目标是发现真正的异常点避免错误地将正常对象标注为异常点换言之一个好的异常检测器必须具有高检测率和低误报率其主要应用于检测欺诈、网络攻击、疾病的不寻常模式等
3DM的方法及研究趋势
在DM算法的理论基础上DM常用方法:
(1)生物学方法包括人工神经网络、遗传算法等;
(2)信息论方法包括决策树等;
(3)集合论方法包括粗糙集理论、近邻算法等:
(4)统计学方法;
(5)可视化技术等方法
DM经过十几年的蓬勃发展很多基本算法已较为成熟在其基础上进行更加高效的改进和算法提高显得比较困难如传统的频繁模式和关联规则挖掘在近几年的国际著名会议和期刊上已不再作为重要的研究主题近年来众多国内外知名学者相继探讨DM的最新方向Yang和Wu汇总形成了DM领域十大挑战性问题报告;Agrawa等探讨了DM的现状并展望了未来的发展方向Piatetsky-shapiro等讨论了DM新的挑战性问题并主要探讨在生物信息学(bioinformatics)、多媒体挖掘(multimediamining)、链接挖掘(1inkmining)、文本挖掘(textmining)和网络挖掘(webmining)等领域所遇到的挑战与国外相比DM在国内的研究和应用始于20世纪90年代初主要是对DM方法的介绍和推广20世纪90年代后期和21世纪初进入蓬勃发展阶段当前DM已成为大型企业进行经营决策时所必须采用的方法证
原创力文档


文档评论(0)