第4章HDFS范例.pptx

下载文档 降价啦

4
0
约7.16千字
约 34页
2017-03-29 发布于湖北
举报
版权申诉
保障服务

第4章HDFS范例.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章 HDFS 翟健宏 1 本章学习要点了解HDFS的前提和设计目标明确Namenode和Datanode的结构，文件系统的NameSpace，数据复制理解文件系统元数据的持久化，通讯协议，健壮性，数据组织，可访问性，空间的回收。教学内容 HDFS的前提和设计目标 Namenode和Datanode的结构文件系统的NameSpace，数据复制，文件系统元数据的持久化，通讯协议，健壮性，数据组织，可访问性，空间的回收?。提纲通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 4 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化 HDFS设计目标和前提 5 硬件错误是常态，而非异常情况,错误检测和快速、自动的恢复是HDFS的核心架构目标；跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理； HDFS以支持大数据集合为目标； HDFS应用对文件要求的是write-one-read-many访问模型。移动计算的代价比之移动数据的代价低。在异构的软硬件平台间的可移植性。提纲通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 6 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化 Namenode和Datanode（1） HDFS采用master/slave架构一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问。 Datanode在集群中一般是一个节点，负责管理节点上它们附带的存储。一个文件被分成一个或多个block，这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作，例如打开、关闭、重命名文件和目录，同时决定block到具体Datanode节点的映射。 Datanode在Namenode的指挥下进行block的创建、删除和复制。 Namenode和Datanode（2） Namenode和Datanode都运行在普通的廉价的linux机器上； HDFS采用java语言开发；一个单独的Namenode节点，集群中的其他机器各跑一个Datanode；单一节点的Namenode大大简化了系统的架构。 Namenode负责保管和管理所有的HDFS元数据，用户数据就不需要通过Namenode，文件数据的读写是直接在Datanode上。提纲通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 9 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化文件系统的namespace HDFS支持传统的层次型文件组织与大多数其他文件系统类似，用户可以创建目录，并在其间创建、删除、移动和重命名文件。 HDFS不支持user quotas和访问权限，也不支持链接（link）; 不过当前的架构并不排除实现这些特性。 Namenode维护文件系统的namespace，任何对文件系统namespace和文件属性的修改都将被Namenode记录下来。应用可以设置HDFS保存的文件的副本数目，文件副本的数目称为文件的 replication因子，这个信息也是由Namenode保存。 10 提纲通讯协议? 健壮性? 数据组织? 可访问性? 空间的回收 11 前提和设计目标? Namenode和Datanode? 文件系统的namespace 数据复制? 文件系统元数据的持久化数据复制 HDFS被设计成在一个大集群中可以跨机器地可靠地存储海量的文件。它将每个文件存储成block序列，除了最后一个block，所有的block都是同样的大小。文件的所有block为了容错都会被复制。每个文件的block大小和replication因子都是可配置的。 Replication因子可以在文件创建的时候配置，以后也可以改变。 HDFS中的文件是write-one，并且严格要求在任何时候只有一个writer。 Namenode全权管理block的复制，它周期性地从集群中的每个Datanode接收心跳包和一个Blockreport。心跳包的接收表示该Datanode节点正常工作，而Blockreport包括了该Datanode上所有的block组成的列表。 12 数据复制副本的存放（1）副本的存放是HDFS可靠性和性能的关键。 HDFS采用一种称为r