- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
引言
HDFS是Hadoop系统的核心组件,由NDFS系统经过演变而来,主要解决海量大数据存储的,也是众多分布式文件系统中应用比较广泛的一个,可以单独使用,一般配合MapReduce一起使用。本章通过对HDFS的简介、HDFS的体系架构、HDFS SHELL命令、HDFS API的操作、RPC通信理论和案例的讲解,让学生深刻理解和运用HDFS系统。
目 录 / CONCENTS
HDFS架构
HDFS Shell
HDFS API详解
01
02
03
HDFS简介
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一分布式文件系统。支持以流式数据访问模式来存取超大文件,活动在集群之上。
HDFS分布式文件系统的存储设计是把海量数据部署在价格低廉的节点上,通过这种方式可以解决高容错性(fault-tolerant)。并且HDFS具有高吞吐量(high throughput)来访问应用程序的数据。
对于用户来说,HDFS系统是被封装起来的普通文件系统。在系统中,用户可以创建、删除、移动或重命名文件等。HDFS具有自身的结构设计,这是由它自身的特点决定的。这些节点包括 NameNode,它在 HDFS 内部提供元数据服务;DataNode它为 HDFS 提供存储块。
HDFS来源
源自于Google的GFS论文
发表于2003年10月
HDFS是GFS的克隆版
Hadoop Distributed File System
易于扩展的分布式文件系统
运行在大量普通廉价机器上,提供容错机制
为大量用户提供性能不错的文件存取服务
HDFS架构
NameNode
Namenode是一个中心服务器,单一节点,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。
文件操作,NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode请求。
副本存放在哪些DataNode上由NameNode来控制,根据全局情况作出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延
Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着Datanode节点工作正常。块状态报告包含一个该Datanode上所有数据块的列表。
DataNode
一个数据块在DataNode1以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据校验和,以及时间戳
DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上抱所有块信息
心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。
集群运行中可以安全加入和推出一些机器
文件
文件切分成块(默认大小128M),以块为单位,每个块有多个副本存储在不同的
机器上,副本数可在文件生成时指定(默认3)
NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性
(生成时间,副本水,文件权限),以及每个文件的块列表以及块所在的DataNode
等等
DataNode在本地文件系统存储文件块数据,以及块数据校验和。
可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件
内容
文件
数据损坏处理
当DataNode读取block的时候,它会计算checksum
如果计算后的checksum,与block创建时值不一样时,说明该block已经损坏
Client读取其他DN上的block
NameNode标记该块已经损坏,然后复制block达到预期设置的文件备份数
DataNode在其文件创建后三周验证其checksum
目 录 / CONCENTS
HDFS架构
HDFS Shell
HDFS API详解
01
02
03
HDFS Shell命令
调用文件系统Shell命令使用bin/hdfs dfs 的形式
查看根目录: hdfs dfs –ls /
创建文件: hdfs dfs –touchz /文件名
删除文件: hdfs dfs –rm /文件名
上传文件: hdfs dfs –put /localPath /
查看文件: hdfs dfs –cat /文件名
追加文件内容: hdfs dfs –appendToFile /localPa
您可能关注的文档
- Flash动画制作与应用 (2).ppt
- Flash动画制作与应用 (3).ppt
- Flash动画制作与应用 (4).ppt
- Flash动画制作与应用 (5).ppt
- Flash动画制作与应用 (6).ppt
- Flash动画制作与应用 (7).ppt
- Flash动画制作与应用 (8).ppt
- Flash动画制作与应用 (9).ppt
- Flash动画制作与应用 (10).ppt
- Flash动画制作与应用 (11).ppt
- Hadoop开发案例第4章 计算系统MapReduce.pptx
- Hadoop开发案例第5章 计算模型Yarn.pptx
- Hadoop开发案例第6章 数据云盘.pptx
- Hadoop开发案例第7章 协调系统Zookeeper.pptx
- Hadoop开发案例第8章 Hadoop数据库Hbase.pptx
- Hadoop开发案例第9章 Hadoop数据仓库Hive.pptx
- Hadoop开发案例第10章 Hadoop数据采集Flume.pptx
- Hadoop开发案例第11章 OTA离线数据分析平台.pptx
- HTML 5移动平台的Java Web实用项目开发单元1 购物网站导航栏和信息提示设计(JSP).ppt
- HTML 5移动平台的Java Web实用项目开发单元2 购物网站访问量统计模块设计(JSP+Servlet).ppt
文档评论(0)