基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究-生物医学工程专业论文.docxVIP

基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究-生物医学工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究-生物医学工程专业论文

基于关联规则和聚类的数据挖掘在临床检 基于关联规则和聚类的数据挖掘在临床检 验信息系统中的应用研究 硕士研究生:苏凯 指导教师:李伟鹏 摘要 临床检验信息系统(C1iniC Laboratory Information System,CLIS)是 医院信息系统的一个重要组成部分。它基于数据库,利用网络和计算机实现软 件和仪器的无缝连接,模拟检验科的工作流程,实现检验信息的电子化和检验 信息管理自动化。 临床检验信息系统的应用产生了大量的数据,采用数据挖掘方法对这些数 据进行分析开采,发现有用知识,是目前亟待开展的工作。但目前国内尚无这 方面的报道,国际上也处于探索阶段。 本文结合糖耐量试验和血细胞计数两项检验数据,详述了在检验信息系统 基础上进行的数据预处理,数据挖掘和知识发现的全过程。并重点阐述了关联 规则挖掘和聚类分析两种数据挖掘方法在实际中的应用。 本文重点介绍了对糖耐量试验数据的预处理,以及关联规则挖掘在糖尿病 诊断方面的应用。 糖耐量试验数据来自医院信息系统中的病人基本信息,从检验信息系统中 提取的糖耐量试验数据,以及从一些调查表中得到其他辅助信息。在填补了空 缺值、对定性数据量化处理、属性范围变换、统一量纲、以及删除了无关孤立 点之后,文中采用SQLSERVER DTS将其引入数据仓库,以SQLSERVER ANALYSIS MANAGER为平台将数据集成,构造多维数据立方体。 为提高数据挖掘的效率,必须针对主题对数据属性进行维规约,排除无关 属性,保留相关属性。维规约采用贪心算法,逐步向前选择有用属性。在属性 的相关性分析中采用了熵增益技术,设定最小信息增益,引入新的属性后计算 熵增益值,和最小信息增益阈值比较,来决定属性的有用性。 关联规则挖掘是数据挖掘中的重要应用之一。本文采用了经典的Apriori算 法,并且在原有关联规则中支持度和可信度的概念基础上,引入了兴趣度概念, 衡量规则的趣味性。本文在对比了客观兴趣度函数的基础上,提出了主观兴趣 衡量规则的趣味性。本文在对比了客观兴趣度函数的基础上,提出了主观兴趣 度函数 interest(A=亨B)=e(a)×P(anB)X(1一P(B)) 并进一步演化为: int删fr4j曰1: !二!!皇! (1一P(4))×(1一P(AnB)) 该函数耦合性、新奇性、简洁性兼顾,显得概念更全面,意义更突出。 在阐述了经典Apriori算法及其改进措施后,本文列出了实际运用于糖耐量 试验数据关联规则挖掘的详细算法实现。算法流程祥见正文。 现实世界的数据复杂性决定了数据挖掘必须针对主题,而且由其发现的知 识必须是基于约束的,有特定的意义,本文的规则形式约束如下: 置(工,_)^只(工,艺)^ ^只(x,E)j have—disease(X,diabetes) 在用MATLAB6.5完成算法后,得到满足最小支持度和可信度的最终频繁项 集{空腹血糖浓度高,2h血糖浓度高,家族糖尿病史,糖尿病}。进一步计算兴 趣度,并以主客观兴趣度为标准筛选,最后得出一系列有用规则,例如: 空腹血糖浓度高j糖尿病 2h血糖浓度高j糖尿病 符合世界卫生组织对糖尿病的诊断要求,反映了糖耐量试验对诊断的实际意义, 为糖尿病的诊断提供了有效的辅助依据。 在血细胞分析的十几项指标中,粒细胞百分数GRAN%和淋巴细胞百分数 LYM%的组合被认为有临床诊断意义:GRAN%高而LYM%低表征细菌性感染; GRAN%低而LYM%高表征病毒性感染。本文采用基于模型的方法,分析血细胞 计数试验的数据,来验证其临床意义。 本文假定病人血常规(只包括LYM%和GRAN%两项)检验报告指标数据 是一个■维正态混合模型,那么可以采用EM算法将其聚类。EM算法是基于划 分的方法k-平均方法的扩展。它不把对象分配给一个确定的簇,而是根据对象 与簇之间隶属关系发生的概率P(k x)来分配对象。 根据医学经验知识,事先将数据分为细菌性感染、正常和病毒性感染3类, 设定起始参数,代入算法程序迭代计算。算法流程详见正文。 迭代过程如下: 事先根据知识经验认为数据集可分为三类,即k=3,选择三个分类中心胁: Ⅱ {(0.05,0.9),(0.3,0.55),(0.6,0.2)},选取盯,的起始值:{(0.1,0.1),(0.1, {(0.05,0.9),(0.3,0.55),(0.6,0.2)},选取盯,的起始值:{(0.1,0.1),(0.1, 0.1),(0.1,0.1)),巩取平均值t/3,执行E步骤:估计P(kl x);然后进行M 步骤:更新参数向量p(以,以,%);然后再返回用更新的参数进行下一轮迭代, 直到收敛(参数达到稳定,即满足{(幺,。一ok川)/以.。o.1),n代表迭代次数)。 得到稳定的参数后,在散点

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档