- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop分布式文件系统
提纲
Hadoop原理
HDFS
• HDFS文件系统原理
• HDFS读写过程
Hadoop浏览器界面
Hadoop常用命令
Hadoop文件系统
• 压缩
2 •
Hadoop 架构
Task Task
tracker tracker
Map Reduce Job
Layer tracker
HDFS
Name
Layer node
Data Data
node node
Reference:
/wiki/File:Hadoop_1.png
HDFS与Google文件系统GFS
GFS的设计目的:为了存储Google内部大量的数据,主要是
全球互联网的数据,需要极大的容量,为搜索引擎提供后备的
存储支持。
Hadoop文件系统HDFS的设计思想来源于GFS ,HDFS的基
本结构与GFS一致。
4
HDFS的基本假定
一个分布式文件系统存储大量的数据
• 建立在大规模的廉价x86集群之上
• 硬件模块会出错,出错可能同时发生
”适量” 的大文件
• 文件数量可能在百万级
• 文件很大,数百GB大小很常见
读写特性:写入一次,多次读取。写入过程可能是并发的
读的过程是连续的读取,一次将一个文件全部内容读一遍
• 针对MapReduce优化
整个系统对于吞吐率的要求非常高,但是对于延迟不敏感
• 面向批处理
5
HDFS的特点
基于本地文件系统之上,用户态
存储海量信息 (TB~PB ),支持很大单个文件。
通过复制提供高可靠性
• 单个或者多个节点不工作,对系统不会造成任何影响,数据仍然可用。
很高的系统吞吐量。
水平扩展:简单加入更多服务器就能够扩展容量和吞吐量
• 最大的实用集群:4000个节点。
针对MapReduce优化。
• HDFS对顺序读进行了优化
• 尽可能根据数据的本地局部性进行访问与计算。
6
HDFS的基本设计
数据块: 文件被划分为固定大小的数据块进行存储
• 数据块(缺省为64MB )远远大于一般文件系统数据块的大小
– 减少元数据的量
– 有利于顺序读写(在磁盘上数据顺序存放 )
可靠性: 数据通过副本的方式保存在多个数据节点
(DataNode )上
• 默认3个副本。
• 副本选择会考虑机架信息以防整个机架同时掉电
系统设计简化 :用单个节点(NameNode)来保存文件系统元
数据和管理/协调
7
HDFS的基本设计(2 )
数据缓存:DataNode没有数据缓存
• 由于文件的访问是扫描式的,不具有局部性
访问方式
• 读、写、文件改名、删除等
• 文件内容不允许覆盖更新overwrite
• 提供一个特殊的访问接口:追加append
8
HDFS系统结构中的主要模块
NameNode :
• 单台服务器,系统中的单点
• NameNode管理所有文件系统的元数据以及协调管理客户端对于数据的
访问
• 管理集群节点和各种操作(如负载均衡)
D
文档评论(0)