大数据处理平台Spark及其生物医学的应用.docVIP

下载本文档

22
0
约5.84千字
约 12页
2018-10-15 发布于福建
举报
版权申诉

大数据处理平台Spark及其生物医学的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据处理平台Spark及其生物医学的应用

大数据处理平台Spark及其生物医学的应用　　摘要：随着生命科学和医疗信息化的快速发展，生物医学数据出现了爆炸式增长趋势，其处理面临数据量大、维度关系复杂和交互式响应要求高等问题。传统的数据库以及Hadoop框架在处理生物医学大数据方面都存在一些不足。Spark是一个新兴的基于内存计算的开源大数据平台，具有丰富的编程接口、通用的处理框架和多元化的运行模式。本文介绍了Spark的关键技术和特性，以及不同来源生物医学大数据特点和成功案例，表明Spark在生物医学大数据处理中的适用性和潜在优势。　　关键词：大数据；Spark：医学研究：生物医学信息学　　doi：10.3 969/j.issn.2095-5 707.2015.02.001 　　对生物医学数据的处理，最终目的是从中获取知识，为提高卫生服务效率、促进医学发展和卫生管理提供支持，使得“数据信息知识”的认知链更臻完善。随着生命组学、医学技术和医疗信息化的快速发展，生物医学数据出现了爆炸式增长趋势，其处理面临数据量大、维度关系复杂、计算强度高等问题。将大数据技术引入医学领域，可以及时充分地共享医疗信息、感知医疗资源，通过模型分析和数据挖掘，描述生命现象和医疗决策中规律并预测其发展趋势。例如，谷歌在2009年初通过用户在网上的搜索记录成功预测甲型HIN1流感的爆发，其“流感趋势系统”通过结合传统监测方法和大数据处理技术，可以预测美国未来1周的流感感染情况；美国的FlatironHealth公司，致力于通过收集和分析海量的临床数据进行癌症治疗的分析和预测，该公司已获得谷歌风投部门超过l亿美元的投资；美国政府于2012年3月发布了“大数据的研究和发展计划”，其中多个项目涉及医疗、公共卫生和生命组学研究。　　Hadoop是Apache基金会的顶级开源项目，已成为目前最重要的大数据技术框架之一，其MapReduce计算模型和完善的生态系统大大简化了大数据处理系统开发和运维管理。Hadoop在生物医学大数据处理中得到成功应用，涵盖了生物信息学、智慧医疗、健康档案、流行病预警、传染病监测等多个方面阻。Explorys医疗数据公司基于Hadoop的云平台能够帮助医生提高聚合、分析、管理和获得辅助决策信息的能力。当前的Hadoop版本也存在一些不足。由于MapReduce在设计上追求简化的计算模型、大规模分布计算的容错性和可扩展性，因而存在较大的磁盘I/O开销以及冗余读写和编程不够灵活等问题，更适合大规模数据的批量或离线计算，不能充分满足数据挖掘和机器学习常用的迭代计算、图计算和低延迟的交互式查询计算等更复杂的计算需求。　　Spark最初由伯克利大学AMPLab实验室于2009年提出，是一个通用大数据处理引擎，旨在快速、易用地处理复杂数据。Spark的出现弥补了Hadoop的不足，成为发展最快的大数据处理平台之一，已广泛应用于腾讯、雅虎和淘宝等一线互联网公司的报表和广告推荐等业务，在生物医学领域也出现了一些成功案例。　　1 Spark关键技术与相关子项目　　1.1 　　Spark特点和关键技术　　Spark （http：//spark. apache. org/）是Apache基金会开源项目，它充分整合利用了现有云计算和大数据技术，具有丰富的编程接口，支持在单机、HadoopYarn、Mesos （http：///）集群和亚马逊EC2云等多种平台上运行，能够访问HDFS文件系统和Hbase数据库等任意Hadoop支持的数据源，提供批处理、交互式、流处理等多种数据处理模式，为大数据应用提供一个统一的平台。据Apache官方测试，Spark运行逻辑回归算法的计算速度是Hadoop的10～100倍。如此之高的性能提升，得益于以下关键技术。　　1.1.1 弹性分布式数据集（Resilient DistributedDatasets，RDD） RDD是Spark计算框架的核心技术。在Spark中，所有的数据都抽象成RDD。用户可将中间结果缓存在内存中，便于有效地被重用和进行并发操作，免去不必要的I/O开销。RDD只能通过两种方式创建，一是读取本地或Hadoop分布式文件系统（ HDFS）上的文件，二是由其他RDD转换而来，具有只读（一组RDD可以通过数据集操作生成另外一组RDD，但是不能直接被改写）、弹性扩展和容错等特性。　　1.1.2 共享变量与MapReduce不同的是，Spark提供广播（ Broadcast）和累加器（Accumulators）两种受限的共享变量，可以像分布式内存系统一样提供全局地址空间接口，提高了数据的共享性。　　1.1.3 容错机制分布式共享内存系统一般通过检查点（ checkpoint）和回滚（rollback）方式容错，