- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术创新,变革未来
Hadoop Distributed File System技术介绍
内容
分布式文件系统
HDFS优缺点
HDFS在Hadoop生态系统中的位置
Hadoop生态系统
HDFS体系结构
分布式文件系统
分布式文件系统 (Distributed File System)是指文件系
统管理的物理存储资源不是在一台节点上,而是分布在集群
中的多个节点上。
HDFS是什么
HDFS 源于 Google 的GFS ,是 GFS 的开源版本
Hadoop核心子项目
分布式文件系统
大数据
运行在廉价的机器上
高容错,因为硬件错误是常态
高吞吐,基于流数据模式访问
一次写入多次读取
数据就近原则
支持异构存储
/docs/r2.7.3/hadoop-
project-dist/hadoop-hdfs/HdfsDesign.html
HDFS优点
高容错,可构建在廉价机器上
1)数据自动保存多个副本,通过增加副本,提高容错性
2)某1个副本丢失以后,可以自动恢复
适合批处理
1) 移动计算而不是移动数据
2) 把数据位置暴露给计算框架
适合大数据处理
1)处理数据达到 GB、TB、甚至PB级别的数据
2)能够处理百万规模以上的文件数量,数量相当之大
3)能够处理10K节点的规模
流式文件访问
1)一次写入,多次读取,文件一旦写入不能修改
2)保证数据的一致性
3)高吞吐率
HDFS缺点
低延时数据访问
1) 毫秒级内数据存储
2) 毫秒级内读取数据
小文件存储
1) 大量小文件会占用 NameNode大量的内存来存储文件
、目录和块信息,而NameNode的内存总是有限的
2)小文件存储的寻道时间会超过读取时间,违反了HDFS
的设计目标
并发写入、文件随机修改
1)一个文件只能有一个写,不允许多个线程同时写。
2)仅支持数据 append (追加),不支持文件的随机修改
HDFS在Hadoop生态系统中的位置
HDFS术语
HDFS 采用Master/Slave的架构来存储数据,该架
构主要由四个部分组成
HDFS Client
NameNode
DataNode
SecondaryNameNode
HDFS体系结构
HDFS体系结构
HDFS体系结构
HDFS Client
文件切分,文件上传 HDFS 的时候,Client 将文
件切分成 一个一个的Block,然后进行存储
与 NameNode 交互,获取文件的位置信息
与 DataNode 交互,读取或者写入数据
Client 提供一些命令来管理 HDFS,比如启动或
者关闭HDFS
Client 可以通过一些命令来访问 HDFS
NameNode
master ,一个管理者,不实际存储数据
管理 HDFS 的名称空间
管理数据块 (Block)映射信息
配置副本策略
处理客户端读写请求
DataNode
Slave ,NameNode 下达命令,DataNode 执行
实际的操作
存储实际的数据块
执行数据块的读/写操作
SecondaryNameNode (1)
SecondaryNameNode (2)
NameNode SecondaryNameNode
SecondaryNameNode (3)
辅助NameNode,分担NameNode工作量
定期合并 fsimage和edits ,并推送给NameNode
执行合并时机
根据配置文件设置的时间间隔
fs.checkpoint.period 默认3600秒
根据配置文件设
原创力文档


文档评论(0)