HDFS的重要概念【全国一等奖】.pptx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFS的重要概念1、了解HDFS的重要概念目录 HDFS的重要概念01HDFS的重要概念 数据块: 电脑硬盘也有分块,之前默认是512字节,现在是4KB。但是有一个问题,假如我使用的是4KB的分块,假如一个数据只有100字节大小,在我们的电脑上,这个数据也占用4KB空间,但是实际大小依旧是100字节。 在HDFS上,数据块的大小默认为128MB.你可能会说,这么大的块,要是只存储100字节的数据,岂不是要浪费剩下的所有空间?HDFS避免了这一点,不论多小的数据,也不会单独占用一个数据块.一个块可以存有多个文件,这与我们电脑的情况非常不一样。HDFS的重要概念 为什么要设计这么大的数据块? (1)最小化寻址开销。 现在的硬盘速度已经可以达到200MB/S(机械硬盘),但是随机存取依旧是一大硬伤,每个硬盘性能测试都会有4KB随机存取,机械硬盘在这里被固态硬盘甩开几百倍有余:寻道时间占了大多数,读取时间非常短。在HDFS上,这么大的数据块就算寻找的非常慢,读取时间也是远远长于寻道时间。 (2)简化存储子系统的设计。 一来可以简化存储管理,二来可以消除对元数据的顾虑:元数据与数据块分开存储而不是在一起。 (3)用于数据备份,提升容错性。 默认情况下HDFS一个数据块会在不同的机器上至少存在3份,如果发现一个块不可用,就可以从其他可用的块读取,而损坏的块稍后会由系统自动处理。HDFS的重要概念 namenode: namenode管理着文件系统命名空间,维护着文件系统树以及整棵树内所有的文件和目录。这些信息以2个文件的形式存储在本地目录:命名空间镜像文件(fsimage)和编辑日志文件(edits)。它也记录每个文件中各个块所在的数据节点信息,但是并不永久保存块信息:每次系统启动时都会根据datanode发来的信息重建,块信息存储在内存中。HDFS的重要概念 namenode的正常运行对HDFS至关重要。如果namenode发生故障,那么整个文件系统都会变得不可用,文件会全部丢失,因为不知道如何根据datanode的块重建文件。此时就需要一定的容错机制,Hadoop为此提供两种方法:将信息同步存储在其他位置,具体做法:namenode自己存储一份,同时写入其他位置,比如网络文件系统(NFS)。运行一个辅助namenode,但是这个namenode不能作为主namenode。它的作用是定期帮助主namenode合并edits与fsimage,以防止编辑日志过大。一般来说辅助namenode在一个单独的机器上运行,因为两者的内存需求是相同的。设计成这样的好处在于,一旦主namenode发生故障,辅助namenode立刻就可以接替它的工作。但是由于保存数据是定时进行的,所以难免会有损失的数据,此时就可以把保存在其他地方(NFS)的数据复制到辅助namenode,然后辅助namenode作为新的主namenode运行。HDFS的重要概念 datanode datanode就是主从结构的"从",是工作节点,它们根据需求存储并检索数据块,定期向namenode发送所存储的块列表。HDFS的重要概念 块缓存 市场上有一种混合硬盘,在机械硬盘的基础上加入了一颗flash,其作用是保存用户经常使用的数据,由于flash的速度大大高于机械硬盘的速度,所以用户访问这些数据时速度会明显加快。对于HDFS也是如此,被经常访问的数据会被缓存在datanode的内存中,以堆外缓存的形式存在。一般来说一份数据只会存在一个datanode的内存中,当然也是可以指定的。HDFS的重要概念 联邦HDFS 由于namenode在内存中保存文件系统的每个文件和数据块的引用关系,所以当文件过多时,namenode的内存会出现瓶颈。联邦HDFS就是为了解决这种情况的,可以指定多个namenode,每个namenode管理文件系统命名空间的一部分,比如两个namenode分别管理文件夹/A与/B。 在这种情况下,每个namenode维护一个命名空间卷,有命名空间的元数据与一个数据块池组成,数据池下包含命名空间下文件的所有数据块。命名空间之间是两两独立的,互相之间不通信,其中一个namenode失效也不会影响其他的namenode。数据块池不再进行切分,因此datanode需要注册到所有的namenode,并存储着来自多个数据块池中的数据块。1、HDFS的重要概念Hadoop是一套分布式系统基础框架,它能够在基于商用硬件构建的大型集群环境运行分布式应用程序。用户可在不了解底层细节的前提下基于Hadoop框架运行分布式程序,而Hadoop框架将为分布式程序提供可靠性和数据处理能力。Hadoop实现了MapReduce编程模型,它能够将分布式应用程序自动的分成小的工作片段,每一个工作

文档评论(0)

胡老师K12教育坊 + 关注
实名认证
内容提供者

从业20余年,中学高级教师,擅长公开课PPT制作等。

1亿VIP精品文档

相关文档