大数据剖析平台.docVIP

下载本文档

7
0
约6.87千字
约 12页
2018-11-13 发布于福建
举报
版权申诉

大数据剖析平台.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据剖析平台

大数据剖析平台　　摘要：认为现有以MapReduce/Spark等为代表的大数据处理平台在解决大数据问题的挑战问题方面过多考虑了容错性，忽视了性能。大数据分析系统的一个重要的发展方向就是兼顾性能和容错性，而图计算系统在数据模型上较好地考虑了性能和容错能力的平衡，是未来的重要发展方向。　　关键词：大数据；分布与并行处理；并行编程；容错；可扩展性　　Abstract：Existing big data analytic platforms， such as MapReduce and Spark， focus on scalability and fault tolerance at the expense of performance. We discuss the connections between performance and fault tolerance and show they are not mutually exclusive. Distributed graph processing systems are promising because they make a better tradeoff between performance and fault tolerance with mutable data models. 　　Key words：big data； distributed and parallel processing； parallel programming； fault tolerance； scalability 　　随着信息化技术的发展，人类可以产生、收集、存储越来越多的数据，并利用这些数据进行决策，从而出现了大数据的概念。大数据的定义很多，比较流行的定义是Gartner公司提出的简称为3V的属性，即数据量大（Volume），到达速度快（Velocity）和数据种类多（Variety）。大数据分析利用数据驱动的方法，在科学发现、产品设计、生产与营销、社会发展等领域具有应用前景。　　由于大数据的3V属性，需要在多台机器上进行分布与并行处理才能满足性能要求，因此传统的关系型数据库和数据挖掘软件很难直接应用在大数据的处理分析中。传统的超级计算技术，虽然具有很强的数据访问和计算能力，但其使用的MPI编程模型编程较为困难，对容错和自动负载平衡的支持也有缺陷，主要运行在高成本的高性能计算机系统上，对于主要在数据中心运行的大数据分析不是非常适合。　　为了解决大数据的分析处理所面临的编程困难，负载不平衡和容错困难的问题，业界发展出了一系列技术，包括分布式文件系统、数据并行编程语言和框架以及领域编程模式来应对这些挑战。以MapReduce[1]和Spark[2]为代表的大数据分析平台，是目前较为流行的大数据处理生态环境，得到了产业界的广泛使用。　　但是在文章中，我们通过分析认为：MapReduce和Spark系统将容错能力作为设计的优先原则，而在系统的处理性能上做了过多的让步，使得所需的处理资源过多，处理时间很长，这样反而增加了系统出现故障的几率。通过进一步分析性能与容错能力的关系，我们提出了一种性能优先兼顾扩展性的大数据分析系统构建思路，并以一个高性能图计算系统为例，介绍了如何用这种思路构建大数据分析系统。　　1 以MapReduce/Spark为　　代表的大数据分析平台　　现有的大数据分析平台主要基于开源的Hadoop系统，该系统使用Hadoop分布式文件系统（HDFS），通过多个备份的方法保证大量数据的可靠存储和读取性能，其上的Hive[3]系统支持数据查询，Hadoop MapReduce则支持大数据分析程序的开发。　　与传统的并行编程方法MPI[4]相比，MapReduce是近年来并行编程领域的重要进展。尽管Map和Reduce在函数语言中早已被提出，但将其应用于大规模分布并行处理应归功于Jeff Dean和Ghemewat Sanjay。在MapReduce并行编程模型中，用户仅需要编写串行的Map函数体和Reduce函数体，MapReduce框架就可以完成并行的计算，并实现了自动容错和负载均衡。这对于数据中心中采用的异构服务器、低成本服务器集群是非常重要的。MapReduce开始仅能在使用通用中央处理器（CPU）的分布式系统上运行，但后来被移植到图形处理器（GPU）和多种加速器上。　　MapReduce需要将中间结果保存到磁盘中，从而大大影响了性能，美国加州伯克利大学提出的Spark系统可以看做是基于内存的MapReduce模型，通过将中间结果保存在内存中，大大提高了数据分析程序的性能，类似思路的系统还包括HaLoop[5]和T