- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式海量数据批处理技术综述
江舢,金晶,刘鹏展,李昕**
(北京邮电大学网络与交换国家重点实验室,北京 100876)
5
10
15
20
摘要:近年来,以 MapReduce 模型为代表的分布式海量数据批处理技术已经得到了学术界
和产业界的广泛关注和应用。本文详细介绍了 MapReduce 的原理以及应用情况,同时详细
分析了该模型的优势与不足。并在此基础上从应用算法研究、高层语言设计、MapReduce
模型优化以及其他相关模型等方面简要介绍了该领域近年来一些主要的研究成果。读者在读
完本文后可以对今年来该领域的发展情况有一个宏观的认识。
关键词:分布式处理系统;云计算;海量数据处理;MapReduce
中图分类号:TP311.5
A Survey of Big Data Processing in Cluster Environment
Jiang Shan, Jin Jin, Liu Pengzhan, Li Xin
(State Key Laboratory of Networking and Switching, Beijing University of Posts and
Telecommunications, Beijing 100876)
Abstract: The big data processing techniques, represented by MapReduce, have been widely used
in academia and industry recently. Many researchers have devoted themselves into improving the
efficiency and usability of MapReduce. In this paper, we illustrate the details of MapReduce and
discuss advantages and shortages of the model. In addition, we also introduce some main
achivements in the areas of application algorithms, script languages, optimization and similar
processing models. Readers can have a macroscopic understanding of this area after reading this
paper.
Keywords: Distributed System; Cloud Computing; Massive Data Processing; MapReduce
25
0 引言
目前,信息产业尤其是互联网的高速发展给各大公司以及研究机构提供了海量的数据。
很多企业或者研究机构需要处理 TB 级甚至是 PB 级的数据,比如,中国移动每天需要处理
5~8TB 的电话记录[1] ,Google 的网络爬虫会产生 20TB 的网页文件[2],Facebook 每天会产生
30
35
40
6TB 的日志文件[1],而日志的总量更是达到 1.7PB[1]。海量数据中蕴含着巨大的资源,比如
Google 会对网页文件进行处理,从而生成搜索引擎需要的索引[2],Facebook 会对日志文件进
行处理生成机器学习的素材[3]。
然而,处理海量数据对于人们来说也是一种挑战。随着数据量的增长,计算的时间也会
成倍的增长。如果不采取有效的手段加快计算的速度,那么海量的数据的计算可能会耗费大
量的时间,比如 Google 声称他们在用传统手段处理网页文件进行倒排索引的时候会花费数
月的时间[1]。此外,在处理海量数据的过程中,因为处理时间长,数据量大,索引很容易出
现各种各样的错误,比如磁盘坏块、机器死机等。如果因为一个错误而导致整个处理过程重
新开始,那么计算任务也有可能是完不成的。
本文下面部分将介绍目前几种比较流行的海量数据处理技术,并对各种技术的性能优
劣,成本以及应用前景进行点评。
作者简介:江舢,(1988-),男,硕士研究生,主要研究方向:海量数据处理,云计算。
通信联系人:李昕,(1976-),男,副教授,主要研究方向:路由技术,网络生存性技术。E-mail:
cplalx@
-1-
1 MapReduce 简介
1.1 架构及处理流程
MapReduce[2]是 Google 提出的一种分布式海量数据处理模型。
MapReduce 模型采用的是主从结构。在一个 MapReduce 集群中有一个控制节点和多个
45
5
文档评论(0)