- 10
- 0
- 约3.11千字
- 约 26页
- 2018-04-03 发布于江西
- 举报
《云计算(第三版)》配套PPT之十六:第5章 Hadoop 2.0 主流开源云架构(二).pptx
电子工业出版社《云计算(第三版)》配套课件
主编:刘鹏 教授
第 5 章
Hadoop 2.0 主流开源云架构(二)
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来
5.2.2 Hadoop 2.0相关项目
5.2.3 Hadoop应用
4
5.2 Hadoop 2.0简述
Hadoop 2.0由来
开源组织Apache成立开源搜索引擎项目Nutch
Apache实现了Nutch版的NDFS和MapReduce
NDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。
工业界称Hadoop 1.X及其以前的版本(0.23.X除外)为Hadoop 1.0,
称Hadoop 2.X及其以后版本为Hadoop 2.0
2002年
2006年
5
将Hadoop 2.0部署至集群后,通过调用Hadoop 2.0程序库,能够用简单的编程模型来处理分布在不同机器上的大规模数据集。
由于采用客户-服务器模式,Hadoop 2.0很容易从一台机器扩展至成千上万台机器,并且每台机器都能提供本地计算存储和本地计算。
考虑到集群中每台机器都可能会出问题(如硬件失效),Hadoop 2.0本身从设计上就在程序层规避了这些问题。
5.2 Hadoop 2.0简述
Hadoop 2.0由来
Hadoop
2.0
分布式存储
(HDFS)
分布式操作系统
(Yarn)
6
5.2 Hadoop 2.0简述
Hadoop 2.0由来
Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0项目模块。
Hadoop
Common
联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一些公用jar包,另一方面也是程序员访问其他两模块的接口。
HDFS
Hadoop的分布式文件系统。
主要提供分布式存储服务。
Hadoop
MapReduce
分布式计算框架。
主要负责资源管理、任务调度和MapReduce算法实现。
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来
5.2.2 Hadoop 2.0相关项目
5.2.3 Hadoop应用
8
Hadoop云计算系统
Google云计算系统
Hadoop HDFS
Google GFS
Hadoop MapReduce
Google MapReduce
HBase
Google BigTable
ZooKeeper
Google Chubby
Pig
Google Sawzall
5.2 Hadoop 2.0简述
Google云计算组件和Hadoop及其相关项目之间的对应关系:
Hadoop 2.0相关项目
9
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
近几年工业界围绕Hadoop进行了大量的外围产品开发,下图描述了各个产品项目之间的层次关系。
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来
5.2.2 Hadoop 2.0相关项目
5.2.3 Hadoop应用
11
5.2 Hadoop 2.0简述
Hadoop应用
构建大型分布式集群
数据仓库
数据挖掘
5.3 Hadoop 2.0部署
5.3.1 部署综述
5.3.2 传统解压包部署
14
5.3 Hadoop 2.0部署
部署综述
安装
方式
简单易用
烦琐易错
隐藏了太多细节
有助于读者深入理解Hadoop
传统解压包方式
Linux标准方式
部署
环境
不需要与其他节点交互,不需要使用HDFS,直接读写本地的文件系统
单机模式
伪分布模式
分布式模式
在一台单机上运行,用不同的进程模仿分布式运行中的各类节点
在不同的机器上部署系统
15
5.3 Hadoop 2.0部署
部署步骤
制定部署规划
准备机器
准备机器
软件环境
下载
Hadoop
解压
Hadoop
配置
Hadoop
启动
Hadoop
测试
Hadoop
部署前工作
部署Hadoop
1)硬件环境
由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须根据 “部署规划”确定。
实际上,完全模式部署Hadoop时,最低需要两台机器(一个主节点,一个从节点),此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。
5.3 Hadoop 2.0部署
准备环境
17
5.3 Hadoop 2.0部署
准备环境
2)软件环境
大量的实践证明,在Linux环境下使用Hadoop则更加稳定高效
须注意的是新装系统(CentOS)的机器不可以直接部署Hadoop
修改机器名
添加域名映射
关闭防火墙
安装JDK
18
5.3 Hadoop 2.0部署
关于Hadoop依赖软件
SSH只是给sbin/s
您可能关注的文档
- 《云计算(第三版)》配套PPT之三十八:第11章 中国云计算技术(三).pptx
- 会计档案管理办法讲解汇编.pptx
- 《人力资源管理》Dessler_HRM12e_PPT_09.ppt
- 第三讲需求工程(requirementsengineering)资料.ppt
- 食堂调查报告全新版概要.ppt
- 语文版九上《孟子》二则 精品课件概要.ppt
- COPD(流行 疾病 指南 用药 病例)..ppt
- 人力资源经典教材《劳动关系概论》教授讲义第五章 职业生涯与职位管理.ppt
- 钢筋混凝土的一般构件概要.ppt
- 《云计算(第三版)》配套PPT之十二:第4章 微软云计算Windows Azure(二).pptx
原创力文档

文档评论(0)