前沿技术-云计算技术-了解Hadoop (1).pptx

前沿技术-云计算技术-了解Hadoop (1).pptx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

前沿技术-云计算技术-

了解Hadoop;本文档来自教材《云计算与大数据技术》

人民邮电出版社

王鹏黄焱安俊秀张逸琴编著

;Hadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统是对Google的MapReduce核心技术的开源实现。

目前Hadoop的核心模块包括系统HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)和分布式计算框架MapReduce,这一结构实现了计算和存储的高度耦合,因此已成为大数据技术领域的事实标准。;Hadoop设计时有以下的几点假设:

;Hadoop是Apache开源组织的分布式计算系统,其分为第一代Hadoop和第二代Hadoop。

第一代Hadoop包含0.20.x、0.21.x、0.22.x三个版本,0.20.x最后演化成了1.0.x版本,第二代Hadoop包含0.23.x和2.x两个版本,2.x本版比0.23.x版本增加了NameNodeHA和Wire-compatibility两个特性,版本发展如图1所示。;Hadoop与MPI在数据处理上的差异主要体现在数据存储与数据处理在系统中位置不同,MPI是计算与存储分离,Hadoop是计算向存储迁移,如图2所示。;在MPI中数据存储的节点和数据处理的节点往往是不同的,一般在每次计算开始时MPI需要从数据存储节点读取需要处理的数据分配给各个计算节点对数据进行处理,因此MPI中数据存储和数据处理是分离的。

对于计算密集型的应用MPI能表现出良好的性能,但对于处理TB级数据的数据密集型应用由于网络数据传输速度很慢,MPI的性能会大大降低,甚至会到不可忍受的地步,所以对于构建在MPI上的并行计算系统网络通讯速度一直是一个重要的性能指标,用“计算换通信”也是MPI并行程序设计中的基本原则。;在Hadoop中由于有HDFS文件系统的支持,数据是分布式存储在各个节点的,计算时各节点读取存储在自己节点的数据进行处理,从而避免了大量数据在网络上的传递,实现“计算向存储的迁移”。

文档评论(0)

学海无涯苦做舟 + 关注
实名认证
内容提供者

职业教育

1亿VIP精品文档

相关文档