- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
前沿技术-云计算技术-
了解Hadoop;本文档来自教材《云计算与大数据技术》
人民邮电出版社
王鹏黄焱安俊秀张逸琴编著
;Hadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统是对Google的MapReduce核心技术的开源实现。
目前Hadoop的核心模块包括系统HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)和分布式计算框架MapReduce,这一结构实现了计算和存储的高度耦合,因此已成为大数据技术领域的事实标准。;Hadoop设计时有以下的几点假设:
;Hadoop是Apache开源组织的分布式计算系统,其分为第一代Hadoop和第二代Hadoop。
第一代Hadoop包含0.20.x、0.21.x、0.22.x三个版本,0.20.x最后演化成了1.0.x版本,第二代Hadoop包含0.23.x和2.x两个版本,2.x本版比0.23.x版本增加了NameNodeHA和Wire-compatibility两个特性,版本发展如图1所示。;Hadoop与MPI在数据处理上的差异主要体现在数据存储与数据处理在系统中位置不同,MPI是计算与存储分离,Hadoop是计算向存储迁移,如图2所示。;在MPI中数据存储的节点和数据处理的节点往往是不同的,一般在每次计算开始时MPI需要从数据存储节点读取需要处理的数据分配给各个计算节点对数据进行处理,因此MPI中数据存储和数据处理是分离的。
对于计算密集型的应用MPI能表现出良好的性能,但对于处理TB级数据的数据密集型应用由于网络数据传输速度很慢,MPI的性能会大大降低,甚至会到不可忍受的地步,所以对于构建在MPI上的并行计算系统网络通讯速度一直是一个重要的性能指标,用“计算换通信”也是MPI并行程序设计中的基本原则。;在Hadoop中由于有HDFS文件系统的支持,数据是分布式存储在各个节点的,计算时各节点读取存储在自己节点的数据进行处理,从而避免了大量数据在网络上的传递,实现“计算向存储的迁移”。
您可能关注的文档
- 前沿技术-云计算技术-并行计算中节点间的Redce操作 (1).pptx
- 前沿技术-云计算技术-常见虚拟化软件 (1).pptx
- 前沿技术-云计算技术-大数据简介 (1).pptx
- 前沿技术-云计算技术-服务器与数据中心 (1).pptx
- 前沿技术-云计算技术-基于计算切分的分布式计算 (1).pptx
- 前沿技术-云计算技术-美克家居个性化 (1).pptx
- 前沿技术-云计算技术-让公有IaaS成为你公司有典型 (1).pptx
- 前沿技术-云计算技术-使用Maven管理storm-starter (1).pptx
- 前沿技术-云计算技术-数据中心的发展历史.pptx
- 前沿技术-云计算技术-数据中心选址.pptx
最近下载
- 电子数据取证技术PPT课件(共12章)第3章取证技术基础.pptx VIP
- 电子数据取证技术PPT课件(共12章)第2章电子数据取证规范.pptx VIP
- 北师大版三年级数学上册 (长方形周长)周长课件教学.pptx
- 23G518-1门式刚架轻型房屋钢结构(无吊车).docx
- 电子数据取证技术PPT课件(共12章)第5章UNIXLinux操作系统取证技术.pptx VIP
- 砥砺身心成就未来主题班会.pptx VIP
- 2024年《公文写作与处理》考试题库大全(含答案).pdf VIP
- 电子数据取证技术PPT课件(共12章)第9章网络取证技术.pptx VIP
- 建设银行笔试试题.docx
- 电子数据取证技术PPT课件(共12章)第4章Windows操作系统取证技术.pptx VIP
文档评论(0)