Hadoop开发案例第3章 分布式存储HDFS.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
引言 HDFS是Hadoop系统的核心组件,由NDFS系统经过演变而来,主要解决海量大数据存储的,也是众多分布式文件系统中应用比较广泛的一个,可以单独使用,一般配合MapReduce一起使用。本章通过对HDFS的简介、HDFS的体系架构、HDFS SHELL命令、HDFS API的操作、RPC通信理论和案例的讲解,让学生深刻理解和运用HDFS系统。 目 录 / CONCENTS HDFS架构 HDFS Shell HDFS API详解 01 02 03 HDFS简介 Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一分布式文件系统。支持以流式数据访问模式来存取超大文件,活动在集群之上。 HDFS分布式文件系统的存储设计是把海量数据部署在价格低廉的节点上,通过这种方式可以解决高容错性(fault-tolerant)。并且HDFS具有高吞吐量(high throughput)来访问应用程序的数据。 对于用户来说,HDFS系统是被封装起来的普通文件系统。在系统中,用户可以创建、删除、移动或重命名文件等。HDFS具有自身的结构设计,这是由它自身的特点决定的。这些节点包括 NameNode,它在 HDFS 内部提供元数据服务;DataNode它为 HDFS 提供存储块。 HDFS来源 源自于Google的GFS论文 发表于2003年10月 HDFS是GFS的克隆版 Hadoop Distributed File System 易于扩展的分布式文件系统 运行在大量普通廉价机器上,提供容错机制 为大量用户提供性能不错的文件存取服务 HDFS架构 NameNode Namenode是一个中心服务器,单一节点,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。 文件操作,NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode请求。 副本存放在哪些DataNode上由NameNode来控制,根据全局情况作出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延 Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着Datanode节点工作正常。块状态报告包含一个该Datanode上所有数据块的列表。 DataNode 一个数据块在DataNode1以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据校验和,以及时间戳 DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上抱所有块信息 心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 集群运行中可以安全加入和推出一些机器 文件 文件切分成块(默认大小128M),以块为单位,每个块有多个副本存储在不同的 机器上,副本数可在文件生成时指定(默认3) NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性 (生成时间,副本水,文件权限),以及每个文件的块列表以及块所在的DataNode 等等 DataNode在本地文件系统存储文件块数据,以及块数据校验和。 可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件 内容 文件 数据损坏处理 当DataNode读取block的时候,它会计算checksum 如果计算后的checksum,与block创建时值不一样时,说明该block已经损坏 Client读取其他DN上的block NameNode标记该块已经损坏,然后复制block达到预期设置的文件备份数 DataNode在其文件创建后三周验证其checksum 目 录 / CONCENTS HDFS架构 HDFS Shell HDFS API详解 01 02 03 HDFS Shell命令 调用文件系统Shell命令使用bin/hdfs dfs 的形式 查看根目录: hdfs dfs –ls / 创建文件: hdfs dfs –touchz /文件名 删除文件: hdfs dfs –rm /文件名 上传文件: hdfs dfs –put /localPath / 查看文件: hdfs dfs –cat /文件名 追加文件内容: hdfs dfs –appendToFile /localPa

文档评论(0)

132****9295 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档