多源异构数据整合系统在医疗大数据中的应用.docVIP

多源异构数据整合系统在医疗大数据中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多源异构数据整合系统在医疗大数据中的应用   摘要:随着医院信息系统的快速发展,为医院带来了海量数据。对这些数据的有效利用、分析,挖掘其中隐含的信息,能为医院管理提供更好的决策支持。但如何从医院信息化进程中产生的海量多源异构数据中甄选出高质量数据,是医疗大数据领域首当其冲的问题。文章在尽量不影响改变医院现有系统的基础上,利用数据中间件的形式,对多源异构数据进行清洗转换,为上层应用提供标准数据集。   Abstract: The rapid development of hospital information system has brought huge amounts of data for the hospital. The effective use of these data, analysis, and to mine the hidden information, can provide better decision support for hospital management. But how to select high quality data from the massive multi-source heterogeneous data in the process of hospital information is the most important problem in the field of big medical data. This paper is trying to make use of the form of data middleware to clean and convert multi-source heterogeneous data, and provide the standard data set for the upper application on the basis of not changing the existing hospital system.   关键词:大数据;多源异构数据;模式匹配   Key words: big data;multi-source heterogeneous data;pattern matching   中图分类号:TP311.5;P208 文献标识码:A 文章编号:1006-4311(2017)08-0080-03   0 引言   信息技术及互联网的高速发展和全球的数字信息资源的急剧增加,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片。在“大数据时代”我们所要做的事情就是对隐藏于大数据中有价值的信息进行分析与挖掘[1],将分散的数据变为有用的信息,再加以创新和积累形成知识。只有形成了知识的数据才具有资产价值。我们面临的第一个挑战就是如何采集高质量的数据。高质量的数据集需满足以下5种特性:精确性、一致性、完整性、同一性和实效性。精确性指数据符合规定的精度,不超出误差范围;一致性指数据之间不能存在相互矛盾;完整性指数据的值不能为空;同一性指实体的标识是唯一的;时效性指数据的值反映了实际的状态。此外,还需考虑到人为因素,即数据不能是人工伪造的。   数据质量问题在医疗行业中表现得尤为突出。医院信息化在近三十年的飞速发展过程中,信息系统的建设规模越来越大,应用越来越复杂多样。这些系统因其处理的业务和采用的技术架构不同,其采集、处理、存储和交换数据的标准均存在较大的差异。从数据的结构形式来看,分为结构化数据、半结构化数据和非结构化数据。例如:PACS和心电监护系统等产生视频、音频等以多媒体格式存储的非结构化数据;HIS和LIS产生患者档案、医嘱处方、化验单等以标准表单形式存储的结构化数据;电子病历又以产生半结构化数据为主。另一方面,从信息记录的模式来看,同一实体可能在多个系统均有记录,但是其具体属性集合可能各有不同。就算是同一属性,其命名或数据更是可能在交互过程因为系统或者手工记录的原因发生错误从而存在相互矛盾冲突的地方。   从以上现象我们不难看出,医疗行业中的数据呈现出一种多源异构性,而且该特征会产生严重的数据质量问题。“失之毫厘谬以千里”,这种不良的数据会对医疗大数据的后续应用产生极为不利的影响。为解决这个问题,我们必须对这些多源??构的数据集进行收集和整合,转换为新的高质量的数据集,从而为上层的大数据分析应用打下良好的基础。   1 系统设计   如果采用传统的数据仓库策略,我们的方法简单说来可以分为以下几步:先抽取原始数据,再根据业务规则对其进行清洗和转换,最后按标准的格式将数据装载到数据仓库中。其简称为ELT。这种策略可以提供有力的决策支持,但是也存在一些不足之处。首先

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档