- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20130415-072 关联规则在脑科电子病历挖掘中的应用
2013中华医院信息网络大会征文,请勿转载
关联规则在脑科电子病历挖掘中的应用
①
曾勇
①广东三九脑科医院,510510,广东省广州市沙太南路 578 号
摘 要 利用基于关联规则的数据挖掘技术,对我院电子病历数据进行挖掘分析,收集某年度
住院病历资料,找出癫痫病种的致病因素和并发症及其相关性。从分析得出的强关联规则可以
看出,用关联规则对电子病历数据进行挖掘,能够有效提取系统中有用的数据信息为医疗诊断
和临床科研提供辅助性的决策,达到数据利用的目的。
关键词 电子病历 关联规则 数据挖掘 应用
随着数字技术的深入应用,区域医疗网络的开展,数据库存储的数字资料将日益膨胀,在
医院信息系统的电子病历 ( [1]
Electronic Medical Records,EMR)中蕴含着丰富的信息和知识 。
电子病历是医疗数字化的一个重要组成部分,是医务人员在医疗活动过程中,使用医疗机构信
息系统生成的文字、符号、图表、 图形、数据、影像等数字化信息,并能实现存储、管理、传
[2]
输和重现的医疗记录, 是病历的一种记录形式 。因此,电子病历是对疾病进行科学诊断与治
[3]
疗的重要基础资料 。积极探索科学实用的数据挖掘技术,在海量电子病历数据中发现有价值的
规则,为临床专家在疾病诊治和临床科研提供科学依据,提升诊治水平,具有重大意义和广阔
前景。
1 关联规则挖掘
数据挖掘是当今数据库技术和人工智能研究中最富有活力的新兴研究方向,其主要目标是
从大型的数据库中挖掘出对用户有价值的模式,挖掘关联规则是数据挖掘中一个重要的课题。
[4]
关联规则(Association Rule) 最早是由 Agrawal、Imielinski 和 Swami 在 1993 年提出,是
数据挖掘技术所能发现的非常重要的一类规则,最初提出的动机是针对购物篮分析问题。
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从数据集合中找出所有的频繁项集
(Frequent Itemsets),第二阶段再由这些频繁项集中产生关联规则(Association Rules)。
设 I={i ,i ,…i }是项的集合,其中 i (j=1,2,...m)为数据项。设任务相关的数据 D 是数
1 2 m j
据库事务的集合,其中每个事务 T 是项的集合,使得T I ,设A 是一个项集,事务 T 包含 A 当
且仅当A T A I B I A B
。关联规则是形如A B 的蕴涵式,其中 , ,并且 。规则 A B
在事务级中 D 中成立,具有支持度 s,其中 s 是 D 中事务包含A B (即A 和 B 二者)的百分比,
它是概率P(A B) 。规则AB 在事务集中具有置信度 c,其中 D 中包含A 的事务同时也包含 B
的 百 分 比 是 c 。 这 是 条 件 概 率 P(B A) 。 即 是 support (A B) P(A B) (1.1 );
confidence (A B) P(B A) (1.2)。
2 电子病历的数据挖掘过程
2.1 数据选择阶段 根据医疗专家的临床需求或管理者的决策需要从业务数据库中抽取数据,可
2013中华医院信息网络大会征文,请勿转载
以是影像资料、处方信息、化验结果、病案首页、病程记录、诊断、护理病历记录、手术麻醉
记录等。
2.2 数据准备阶段 数据准备阶段在整个数据挖掘过程中占的比例最大,通常达到 40-50%左右。
这个阶段通常包括数据预处理 (Data Preprocessing)和数据变换 (
文档评论(0)