第4章HDFS范例.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 HDFS 翟健宏 1 本章学习要点 了解HDFS的前提和设计目标 明确Namenode和Datanode的结构,文件系统的NameSpace,数据复制 理解文件系统元数据的持久化,通讯协议,健壮性,数据组织,可访问性,空间的回收。 教学内容 HDFS的前提和设计目标 Namenode和Datanode的结构 文件系统的NameSpace,数据复制,文件系统元数据的持久化,通讯协议,健壮性,数据组织,可访问性,空间的回收?。 提 纲 通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 4 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化 HDFS设计目标和前提 5 硬件错误是常态,而非异常情况,错误检测和快速、自动的恢复是HDFS的核心架构目标; 跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理; HDFS以支持大数据集合为目标; HDFS应用对文件要求的是write-one-read-many访问模型。 移动计算的代价比之移动数据的代价低。 在异构的软硬件平台间的可移植性。 提 纲 通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 6 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化 Namenode和Datanode(1) HDFS采用master/slave架构 一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服 务器,负责管理文件系统的namespace和客户端对文件的访问。 Datanode在集群中一般是一个节点,负责管理节点上它们附带的存储。 一个文件被分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如 打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。 Datanode在Namenode的指挥下进行block的创建、删除和复制。 Namenode和Datanode(2) Namenode和Datanode都运行在普通的廉价的linux机器上; HDFS采用java语言开发; 一个单独的Namenode节点,集群中的其他机器各跑一个Datanode; 单一节点的Namenode大大简化了系统的架构。 Namenode负责保管和管理所有的HDFS元数据, 用户数据就不需要通过Namenode,文件数据的读写是直接在Datanode上。 提 纲 通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 9 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化 文件系统的namespace HDFS支持传统的层次型文件组织 与大多数其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。 HDFS不支持user quotas和访问权限,也不支持链接(link); 不过当前的架构并不排除实现这些特性。 Namenode维护文件系统的namespace,任何对文 件系统namespace和文件属性的修改都将被Namenode记录下来。 应用可以设置HDFS保存的文件的副本数目,文件副本的数目称为文件的 replication因子,这个信息也是由Namenode保存。 10 提 纲 通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 11 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化 数据复制 HDFS被设计成在一个大集群中可以跨机器地可靠地存储海量的文件。 它将每个文件存储成block序列,除了最后一个block,所有的block都是同样的大小。文件的所有block为了容错都会被复制。 每个文件的block大小和replication因子都是可配置的。 Replication因子可 以在文件创建的时候配置,以后也可以改变。 HDFS中的文件是write-one,并且严格要求在任何时候只有一个writer。 Namenode全权管理block的复制,它周期性地从集群中的每个Datanode接收心跳包和一个Blockreport。 心跳包的接收表示该Datanode节点正常工 作,而Blockreport包括了该Datanode上所有的block组成的列表。 12 数据复制 副本的存放(1) 副本的存放是HDFS可靠性和性能的关键。 HDFS采用一种称为r

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档