医疗大数据项目实践：基于hadoop+spar等k+mongodb+mysql的医院临床知识库系统.docxVIP

下载本文档

28
0
约7.5千字
约 13页
2019-01-18 发布于福建
举报
版权申诉

医疗大数据项目实践：基于hadoop+spar等k+mongodb+mysql的医院临床知识库系统.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

医疗大数据项目实践：基于hadoopspar等kmongodbmysql的医院临床知识库系统

一、前言 ???? 从20世纪90年代数字化医院概念提出到至今的20多年时间，数字化医院（Digital Hospital)在国内各大医院飞速的普及推广发展，并取得骄人成绩。不但有数字化医院管理信息系统（HIS)、影像存档和通信系统（PACS)、电子病历系统（EMR)和区域医疗卫生服务（GMIS)等成功实施与普及推广，而且随着日新月异的计算机技术和网络技术的革新，进一步为数字化医院带来新的交互渠道譬如：远程医疗服务，网上挂号预约。 ???? 随着IT技术的飞速发展，80%以上的三级医院都相继建立了自己的医院信息系统（HIS）、电子病历系统（EMR）、合理用药系统（PASS）、检验管理系统（LIS）、医学影像存储与共享系统（PACS）以及移动查房、移动护理系统以及与大量的第三方接口整合应用，IT在医疗领域已经进入了一个大数据时代，随着HIS的广泛应用及其功能的不断完善，HIS收集了大量的医疗数据。 ???? 进入2012年，大数据及相关的大数据处理技术越来越多地被国人提及，人们也普遍的接受大数据的概念，大数据技术也影响着我们的日常生活，互联网行业已经得到广泛应用，电信、银行等行业也已经在广泛尝试使用大数据技术提供更稳健和优质的服务。 ???? 在目前情况下，医疗IT系统收集了这些集其有价值的数据，但是这些大量的有价值的历史医疗数据并没有发挥出其应有的价值，不能为一线临床医生提供医疗诊断辅助，也不能为医院管理和经营决策提供必须的支持。 ???? 针对以上现状，思考拟利用医院现有的历史就诊记录、处方、诊断、病历数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些规则、知识信息构建专业的临床知识库，为一线医务人员提供专业的诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大的提高医疗服务质量，减轻一线医疗人员的工作强度。二、HadoopSpark ???? 目前大数据处理领域的框架有很多。从计算的角度上看，主要有MapReduce框架（属于Hadoop生态系统）和Spark框架。其中Spark是近两年出现的新一代计算框架，基于内存的特性使它在计算效率上大大优于MapReduce框架；从存储角度来看，当前主要还是在用Hadoop生态环境中的HDFS框架。HDFS的一系列特性使得它非常适合大数据环境下的存储。 2.1 Hadoop ???? Hadoop不是一个软件，而是一个分布式系统基础架构，是由Apache基金会主持开发的一个开源项目。Hadoop可以使用户在不了解分布式底层实现的情况下，开发分布式程序，从而充分利用电脑集群的威力，实现高速运算和大规模数据存储。Hadoop主要有HDFS、MapReduce、Hbase等子项目组成。 ???? Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且使用可靠、高效、可伸缩的方式进行数据处理。Hadoop假设数据处理和存储会失败，因此系统维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop通过并行工作，提高数据处理速度。Hadoop能够处理PB级数据，这是常规数据服务器所不能实现的。此外，Hadoop依赖于开源社区，任何问题都可以及时得到解决，这也是Hadoop的一大优势。Hadoop建立在Linux 集群上，因此成本低，并且任何人都可以使用。它主要具有以下优点： ???? 1高可靠性。Hadoop系统中数据默认有三个备份，并且Hadoop有系统的数据检查维护机制，因而提供了高可靠性的数据存储。 ???? 2扩展性强。Hadoop在普通PC服务器集群上分配数据，通过并行运算完成计算任务，可以很方便的为集群扩展更多的节点。 ???? 3高效性。Hadoop能够在集群的不同节点之间动态的转移数据。并且保证各个节点的动态平衡，因此处理速度非常快。 ???? 4高容错性。Hadoop能够保存数据的多个副本，这样就能够保证失败时，数据能够重新分配。 ???? Hadoop总体架构如下图所示，Hadoop架构中核心的是MapReduce和HDFS两大组件。 ???? Google曾发表论文《Google File System》，系统阐述了Google的分布式文件系统的设计实现，Apache针对GFS，进行开源开发，发布了Hadoop的分布式文件系统：Hadoop Distributed File System,缩写为HDFS。MapReduce的核心思想也由Google的一篇论文《MapReduce:Simplified Data Processing on Large Clusters》提出，筒单解释MapReduce的核心思想就是：任务分解执行，执行结果汇总。 2.2 Spark ???? Spark是UC Berkeley大学AMP实验室开源的类似MapR