网站大量收购独家精品文档,联系QQ:2885784924

Hadoop大数据技术与项目实战 实训指导书——2.3.2 Hadoop框架组成.pdf

Hadoop大数据技术与项目实战 实训指导书——2.3.2 Hadoop框架组成.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

山西职业技术学院《Hadoop大数据技术与项目实战》

Hadoop框架组成

一、任务描述

Hadoop是Apache基金会开发的一款分布式系统基础架构,主要解决海量数据存

储和海量数据计算两大问题,从广义上来说,Hadoop通常指的是Hadoop生态圈,在

图中可以看到有很多技术栈,这些技术栈都属于Hadoop生态圈的组件。

二、能力目标

1.能够理解和掌握Hadoop框架组成;

2.能够理解什么是Hadoop?

三、任务准备

1.准备Hadoop的相关知识

2.设计和掌握Hadoop框架组成

四、任务实施

1.什么是Hadoop?

Hadoop是Apache基金会开发的一款分布式系统基础架构,主要解决海量数据存

储和海量数据计算两大问题,从广义上来说,Hadoop通常指的是Hadoop生态圈,在

图中可以看到有很多技术栈,这些技术栈都属于Hadoop生态圈的组件。

2.Hadoop框架介绍及组成。

这节课共有四部分内容,一、什么是Hadoop?二、Hadoop发行版本,三、Hadoop

优势,四、Hadoop组成。

3.Hadoop主流的三大发行版本。

1

山西职业技术学院《Hadoop大数据技术与项目实战》

第一个版本是Apache原生的发行版本,适合广大大数据爱好者入门学习,也是本

课程中学习的版本;第二个版本是Cloudera公司封装的CDH版本,它比Apache版本

在兼容性、安全性和稳定性上有所增强,目前广泛应用于国内的开发公司;第三个版本

是Hortonworks号糖我紫(H版本),这个版本最大的特点是提供内容丰富的开源文档,

便于开发人员使用,国外开发公司应用这个版本的居多。

本课程将基于Apache公司开发的原生版本进行Hadoop学习,从学习的角度来说,

选择Apache原生版本,可以更好的理解大数据技术的操作和它的底层原理。

4.Hadoop主要有四大优势:

A.高可靠性。Hadoop在存储数据的过程中,每一份数据都会在它的内部默

认存储三个副本。如果某一份数据中的一个副本丢失,仍然可以通过当前数据的其

他副本恢复数据。

B.高扩展性。当Hadoop集群在存储数据的过程中,遇到存储空间较满的情况

时,Hadoop可以动态地实现集群扩容,可以在不关闭集群的情况下添加机器或者

删减机器。

C.高效性。主要体现在Hadoop中包含了MapReduce离线计算框架,通过

MapReduce,可以对海量的数据进行分布式离线计算。

D.高容错性。主要体现在数据的多副本,与高可靠性有一些类似。一份数据的

多备份性可以保证数据不丢失。

以上就是Hadoop的四大优势。

5..Hadoop主要包含三大功能组件:

A.HDFS,主要负责以分布式的方式存储海量数据。HDFS即分布式文件存储系统,

2

山西职业技术学院《Hadoop大数据技术与项目实战》

在大数据技术中,实现分布式的海量数据存储并不是最终目的,而从海量数据中分析、

挖掘数据中所蕴含的巨大价值,才是大数据技术的核心。

B.MapReduce,是分布式离线计算框架的计算组件。通过MapReduce可以对HDFS

中的海量数据进行快速的数据处理和分析。

C.YARN。程序在运行过程中都会使用到计算机的一部分资源,这部分资源可能是

CPU、网络、内存等,在一个分布式架构下,该如何管理这些资源呢?Hadoop提供了

一个叫做YARN的分布式资源调度平台,Mapreduce编写好程序后,都会提交到YARN

上运行,由YARN进行分布式的资源调度,保证当前MapReduce程序能够进行分布式

运行。

以上三个是Hadoop的基本组件。

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档