- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则和聚类的数据挖掘在临床检验信息系统中的应用研究-生物医学工程专业论文
基于关联规则和聚类的数据挖掘在临床检
基于关联规则和聚类的数据挖掘在临床检 验信息系统中的应用研究
硕士研究生:苏凯 指导教师:李伟鹏
摘要
临床检验信息系统(C1iniC Laboratory Information System,CLIS)是 医院信息系统的一个重要组成部分。它基于数据库,利用网络和计算机实现软 件和仪器的无缝连接,模拟检验科的工作流程,实现检验信息的电子化和检验 信息管理自动化。
临床检验信息系统的应用产生了大量的数据,采用数据挖掘方法对这些数 据进行分析开采,发现有用知识,是目前亟待开展的工作。但目前国内尚无这 方面的报道,国际上也处于探索阶段。
本文结合糖耐量试验和血细胞计数两项检验数据,详述了在检验信息系统 基础上进行的数据预处理,数据挖掘和知识发现的全过程。并重点阐述了关联 规则挖掘和聚类分析两种数据挖掘方法在实际中的应用。
本文重点介绍了对糖耐量试验数据的预处理,以及关联规则挖掘在糖尿病 诊断方面的应用。
糖耐量试验数据来自医院信息系统中的病人基本信息,从检验信息系统中 提取的糖耐量试验数据,以及从一些调查表中得到其他辅助信息。在填补了空 缺值、对定性数据量化处理、属性范围变换、统一量纲、以及删除了无关孤立 点之后,文中采用SQLSERVER DTS将其引入数据仓库,以SQLSERVER ANALYSIS MANAGER为平台将数据集成,构造多维数据立方体。
为提高数据挖掘的效率,必须针对主题对数据属性进行维规约,排除无关 属性,保留相关属性。维规约采用贪心算法,逐步向前选择有用属性。在属性 的相关性分析中采用了熵增益技术,设定最小信息增益,引入新的属性后计算 熵增益值,和最小信息增益阈值比较,来决定属性的有用性。
关联规则挖掘是数据挖掘中的重要应用之一。本文采用了经典的Apriori算 法,并且在原有关联规则中支持度和可信度的概念基础上,引入了兴趣度概念,
衡量规则的趣味性。本文在对比了客观兴趣度函数的基础上,提出了主观兴趣
衡量规则的趣味性。本文在对比了客观兴趣度函数的基础上,提出了主观兴趣 度函数
interest(A=亨B)=e(a)×P(anB)X(1一P(B)) 并进一步演化为:
int删fr4j曰1: !二!!皇!
(1一P(4))×(1一P(AnB))
该函数耦合性、新奇性、简洁性兼顾,显得概念更全面,意义更突出。 在阐述了经典Apriori算法及其改进措施后,本文列出了实际运用于糖耐量
试验数据关联规则挖掘的详细算法实现。算法流程祥见正文。
现实世界的数据复杂性决定了数据挖掘必须针对主题,而且由其发现的知 识必须是基于约束的,有特定的意义,本文的规则形式约束如下:
置(工,_)^只(工,艺)^ ^只(x,E)j have—disease(X,diabetes) 在用MATLAB6.5完成算法后,得到满足最小支持度和可信度的最终频繁项
集{空腹血糖浓度高,2h血糖浓度高,家族糖尿病史,糖尿病}。进一步计算兴
趣度,并以主客观兴趣度为标准筛选,最后得出一系列有用规则,例如:
空腹血糖浓度高j糖尿病 2h血糖浓度高j糖尿病
符合世界卫生组织对糖尿病的诊断要求,反映了糖耐量试验对诊断的实际意义, 为糖尿病的诊断提供了有效的辅助依据。
在血细胞分析的十几项指标中,粒细胞百分数GRAN%和淋巴细胞百分数 LYM%的组合被认为有临床诊断意义:GRAN%高而LYM%低表征细菌性感染; GRAN%低而LYM%高表征病毒性感染。本文采用基于模型的方法,分析血细胞 计数试验的数据,来验证其临床意义。
本文假定病人血常规(只包括LYM%和GRAN%两项)检验报告指标数据 是一个■维正态混合模型,那么可以采用EM算法将其聚类。EM算法是基于划 分的方法k-平均方法的扩展。它不把对象分配给一个确定的簇,而是根据对象 与簇之间隶属关系发生的概率P(k x)来分配对象。
根据医学经验知识,事先将数据分为细菌性感染、正常和病毒性感染3类,
设定起始参数,代入算法程序迭代计算。算法流程详见正文。 迭代过程如下:
事先根据知识经验认为数据集可分为三类,即k=3,选择三个分类中心胁:
Ⅱ
{(0.05,0.9),(0.3,0.55),(0.6,0.2)},选取盯,的起始值:{(0.1,0.1),(0.1,
{(0.05,0.9),(0.3,0.55),(0.6,0.2)},选取盯,的起始值:{(0.1,0.1),(0.1, 0.1),(0.1,0.1)),巩取平均值t/3,执行E步骤:估计P(kl x);然后进行M 步骤:更新参数向量p(以,以,%);然后再返回用更新的参数进行下一轮迭代, 直到收敛(参数达到稳定,即满足{(幺,。一ok川)/以.。o.1),n代表迭代次数)。 得到稳定的参数后,在散点
您可能关注的文档
- 基于公共卫生服务包的社区卫生服务人力资源配置标准研究——以深圳为例-社会医学与卫生事业管理专业论文.docx
- 基于公共受托责任的政府管理会计框架构建-会计学专业论文.docx
- 基于公共中继的认知无线电系统中继选择与功率分配研究-通信与信息系统专业论文.docx
- 基于公共受托责任的我国政府财务报告改革研究-行政管理专业论文.docx
- 基于公共信息资源的咨询服务研究-工商管理专业论文.docx
- 基于公共安全三角形理论的保护层方法在滨江化工园区的应用研究-安全科学与工程专业论文.docx
- 基于公众角度的企业社会责任与社会资本研究-社会学专业论文.docx
- 基于公共安全视角的电网设备集中监造模式研究-公共管理专业论文.docx
- 基于公共安全优先的城市综合交通枢纽建运一体模式研究-管理科学与工程;工程管理专业论文.docx
- 基于公共安全理论的城市消防管理体系研究-工程项目管理专业论文.docx
- SLT 631.8-2025 第8部分:安全监测工程 质量验收检验表、验收表(二分之二).docx
- 观沧海 课件2025-2026统编版七年级语文上册(共31张ppt).pptx
- 统编版语文七年级上册第2课《济南的冬天》课件 (共37张ppt).pptx
- 2 花的学校 课件(共23张PPT).pptx
- 统编版五年级上册语文21 古诗三首-长相思 课件(共33张PPT).pptx
- 统编版语文四年级下册18 文言文二则 铁杵成针 课件(共28张PPT).pptx
- 统编版语文九年级上册第2课《周总理,你在哪里》课件(共32张ppt).pptx
- 2 中国人首次进入自己的空间站 课件(共21张PPT)2025-2026统编版八年级语文上册.pptx
- 9 日月潭 课件(共24张PPT).pptx
- 11 蟋蟀的住宅课件(共16张PPT).pptx
最近下载
- 抗菌药物在呼吸系统的合理应用.ppt VIP
- 蜘蛛课件PPT介绍.pptx VIP
- 有机化学第六版教学课件15 第十五章_胺.pptx
- 2025年安徽省书画院公开招聘工作人员笔试参考题库附答案解析.docx VIP
- 见证取样人员证书变更申请表.doc VIP
- 转阶段技术状态确认风险评估报告.docx VIP
- 第四章、文明施工、环境保护管理体系及施工现场扬尘治理措施.docx VIP
- 医疗机构污水处理工程技术标准GB51459—2024知识培训.pptx
- C186015【基础】2025年海南医学院105300公共卫生《353卫生综合之医学统计学》考研基础.pdf VIP
- 《特色农产品营销》 课件 项目2 构图技巧及农产品取景布光 .pptx
文档评论(0)