医疗大数据疾病关联分析.docVIP

下载本文档

395
0
约3.61千字
约 8页
2018-08-25 发布于福建
举报
版权申诉

医疗大数据疾病关联分析.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

医疗大数据疾病关联分析

医疗大数据疾病关联分析　　摘要　　随着医疗卫生信息化的推进和发展，医疗信息系统已经从基础的财务收费，全面覆盖到药品、临床、电子病历各个业务领域，同时也积累了海量的医疗业务数据，如何对这些数据进行深层次的挖掘，找到其中的规律具有重要意义。近年来大数据技术取得了突飞猛进的发展，本文讨论应用大数据中的关联分析算法，研究医疗临床数据中疾病诊断之间的关联关系，为形成诊断知识库提供解决思路。　　【关键词】数据挖掘关联分析疾病诊断支持度置信度　　医疗卫生关系国计民生，是人民生活幸福水平的重要体现，在中国这样一个人口大国，看病难一直是困扰普通民众。医疗信息化系统运行积累了海量的数据信息，这些数据隐藏了很多有价值的信息，如何使这些数据辅助医疗机构做出科学决策、让它们发挥更大价值，成为当前的热点话题之一。对于医生这个职业，经验和知识的积累是非常重要的，我们是否可以利用大数据技术手段，挖掘出医疗行为的一些内在关系，然后转化为知识成为医生技能提升和知识传播的手段，加快医生的成长进程。关联分析通过表征事物特征的两个或多个变量的取值之间存在的某种规律性，找出数据之间隐藏的关联关系。临床上的某些疾病会同时呈现几种不同的病症，这些病症之间就表现为一定程度的关联性，而医生诊断病症的过程常常以观察症状为基础。因此本次研究就是利用居民就医相关的数据（重点是疾病诊断类信息），进行“居民所患疾病之间的关联分析”，形成初步的知识库，为后续医生在治疗过程提供诊断相关性的支撑。　　1数据采集及预处理　　本次采集的原始数据为诊疗标准数据，数据量为1392185条。结合任务需求，仅提取病人的id以及疾病的名称这两列有意义的属性列。另外在该阶段，我们还清洗无意义的行记录，例如同一病人重复的疾病记录，以及仅得一种疾病的记录等。第一步预处理后，数据量缩减到683703条。该诊疗数据以纵向格式存储，一个患者的不同时点资料以多条记录的形式保存，而进行关联关系分析时，需要以一个患者一条记录的形式形成数据集，所以在被分析利用前，必须对该数据格式以病人ID为条件进行纵横转置。转置后，数据量缩减到181983条。　　2算法模型选择　　在设计算法模型时，初始时计划选择Apriori算法，但在后期编码时发现该算法在构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。后通过搜索相关资料，发现FP-growth算法。该算法基于Apriori??建，但采用了高级的数据结构减少扫描次数，只需要对原始数据进行两次扫描，大大加快了算法速度。　　其算法思想以及实现步骤如下：　　（1）对于每个频繁项，构造它的条件投影数据库和投影FP-tree。　　（2）对每个新构建的FP-tree重复这个过程，直到构造的新FP-tree为空，或者只包含一条路径。　　（3）当构造的FP-tree为空时，其前缀即为频繁模式；当只包含一条路径时，通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。　　最终，决定选择FP-growth算法作为此次数据分析的算法模型。　　在算法实现工具方面，出于掌握难易度、可分布式进行计算等方面考虑，本小组选择Mahout这一轻量级数据挖掘软件。它的关联规则挖掘中就包括了FP Growth算法。　　3数据分析实现　　我们先将数据库中的疾病数据导出，利用Mahout内置的FP-growth模块，对原始数据进行关联频繁项分析，由于原始数据的量不大，我们没有扩展使用Mahout集成的Mapreduce模式进行并行计算，通过对输出的hdfs序列文件进行反序列化后我们就能正常查看结果数据。　　上述步骤最后得出的文件为关联关系分析后的各频繁项以及相应支持度统计数，为方便后续关联关系分析，我们基于原始result文件开发了辅助分析程序，可根据需求设定相应的最小支持度和最小置信度阈值，最终输出符合阈值设置的关联关系。如图1所示。　　4疾病关联分析　　通过基于大数据的挖掘分析技术，我们希望通过存数据分析的手段找出疾病诊断之间关联规则，并于现有医学知识进行验证，以期发现其中的规律。这些规则可能会揭示数据库中所含信息和一般规律，可以作为对新的病例诊断的参考依据。　　通常我们在做关联规则发现的时候都会设定支持度和置信度阈值最小支持度和最小置信度，而关联规则发现则是发现那些支持度大于等于最小支持度并且置信度大于最小置信度的所有规则。支持度和置信度的意义在于，支持度是一个重要的度量，如果支持度很低，代表这个规则其实只是偶然出现，基本没有意义。因此，支持度通常用来删除那些无意义的规则。而置信度则是通过规则进行推理具有可靠性。用c（X-Y）来说，只有置信度越高，Y出现在包含X的事务中的概