医疗健康大数据技术路线与方法论初探.docVIP

医疗健康大数据技术路线与方法论初探.doc

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
医疗健康大数据技术路线与方法论初探

医疗健康大数据技术路线与方法论初探   医疗健康大数据已经成为理论和应用中的热点。从国际上看,Google的流感预测是典型的大数据在公共卫生领域的成功应用。不仅有学术研究,目前商业界也在探索如何使用医疗健康大数据开展增值服务。   国内以上海为例,从2006年启动区域卫生信息化建设以来,上海市卫生信息化取得了长足进步,积累了150TB以上的医疗健康数据。但是如何充分利用这些数据仍处于初期探索。   本文结合国家卫生信息共享工程技术研究中心组织上海地区的研发团队,在2014年申报科技部生物大数据863项目的基础上,总结了目前医疗健康大数据领域的若干研究问题,并提出相关对策和研究方向。提炼了医疗健康大数据研究和开发的总体技术路线。   医疗健康大数据应用需求研究   经过近十年的区域卫生信息化及十多年医院信息化的发展,医疗行业已经积累了一定的数据。目前的瓶颈在于如何利用这些数据。   在这次项目申报中,我们的研发团队中有临床科研人员、医疗卫生信息化人员、大数据研发人员。我们感到临床科研人员对于样本和数据与HIT人员有完全不同的理解。按照目前循证医学的要求,进入研究队列的样本是按照一定标准筛选的。样本在研究的过程中,受到严格的控制,对每个样本都可以按照研究的要求采集到所需的数据。临床科研所需采集的数据项比目前诊疗过程中采集的数据项要丰富得多。也就是说,临床科研所需要的数据,生产系统无法提供。反之,由于临床科研的高要求,样本数量是非常有限的,一般在几十,最多到几百,超过千就是很大的规模了。而生产系统积累的数据规模是很大,同一个病种的数量是以万计,对于高血压、糖尿病等多发病以百万计。但是临床科研人员觉得没用,或不知道怎么用。因此目前积累的大数据如何用,本身就是一个科研问题。   针对这样的情况,可以从两个角度去考虑:   (1)基于现有数据如何利用,上海曙光医院的《面向心血管及肿瘤疾病的中医临床大数据挖掘与分析》一文中,以回顾性调查的思路,基于现有数据进行流行病学研究。   (2)基于研究需求及现有数据,进一步应该收集哪些信息?例如目前疗效研究是一个热点,但是如果确认疗效是一个问题。可以考虑基于移动互联网,让患者自助填写服药情况及服药后的主观感受。   医疗健康大数据中心构建   目前以上海医疗数据中心为代表,已经建设了不少区域医疗健康数据中心和医院的临床数据中心。在此基础上如何构建医疗健康大数据中心,面临以下问题:   (1)数据库vs大数据存储:目前数据中心主要基于关系型数据库,针对大数据,需要新型的NoSQL大数据存储,例如Hadoop等。   (2)结构化数据vs非结构化:目前数据中心主要存储数据,在大数据时代,非结构化数据越来越多。   (3)业务数据vs知识数据:对于大数据处理,除了目前的业务数据,还需要医疗健康知识数据。   (4)业务数据vs外部数据:除了目前采集的临床和健康数据外,还将融合其他外部数据,例如体检数据、个人采集的健康数据、互联网数据、气象/环境数据、基因数据等。这些数据具有多源、异构、多粒度、可信度不同等特点。   医疗健康大数据平台研发   目前医疗健康大数据平台一般基于Hadoop框架来构建。现有Hadoop与行业应用还是有一段差距的。对于医疗健康应用而言主要是两个方面:   (1)缺乏面向医疗健康领域的分析和挖掘算法库、模型库。以Google流感预测为例,Google研究团队筛选了近百个模型后,才选择了目前投入使用的预测模型。因此这是一项艰巨的任务。   (2)缺乏医疗健康知识库支撑。在临床决策支持等基于医疗健康大数据的应用中,需要基于对医生输入的数据内容的理解,才能做出必要的决策支持。对于数据内容的语义处理,必须基于医疗健康知识库。   在万达信息股份有限公司的《基于大数据的临床决策支持系统初探》中将尝试解决这些问题。   医疗健康大数据关键技术研究   医疗健康语义知识库构建。传统的知识库基本是非结构化和半结构化的。在医疗健康大数据分析和挖掘中,需要结构化和语义化的知识库。医疗健康是一个知识密集型领域,以SNOMED-CT为例,有几十万个概念几百万个关系。用目前纯手工的方法难以建立和维护。因此语义化的医疗健康知识库构建是一个关键技术问题。华东理工大学的《基于本体的医疗健康语义知识库构建》中将尝试解决这些问题。   非结构化数据的语义处理。目前大部分医疗健康数据中心采集和存储的是结构化的信息。在临床中,还有大量的电子病历文书是非结构化和半结构化的。如何将这些数据结构化语义化是一个关键技术问题。华东理工大学的《基于本体的医疗健康语义知识库构建》中将尝试解决这些问题。   传统分析和挖掘技术的并行化。传统的数据分析和挖掘算法在Hadoop的并行环境中如

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档