网站大量收购独家精品文档,联系QQ:2885784924

Hadoop大数据开发实例教程:Hadoop文件系统PPT教学课件.pptx

Hadoop大数据开发实例教程:Hadoop文件系统PPT教学课件.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

Hadoop文件系统033.1HDFS简介3.2HDFS架构3.3HDFS读写文件流程3.4HDFS接口3.5实训3Hadoop的安装与基本配置——完全分布式

知道HDFS的架构及相关概念;知道HDFS文件读写流程及副本存放策略;知道HDFS的几种接口类型及接口的应用场景;掌握HDFSWeb接口的登录和验证方法。1243本模块讲解Hadoop文件系统(HDFS)架构、读写文件流程和HDFS接口,使读者能够掌握相关知识,为后续学习打好基础。HDFS架构中主要涉及几个概念和对应的设置,读写文件流程通过图文并茂的方式进行讲解,最后通过HDFS的Web接口对前面所做的讲解和配置进行验证。通过本模块的学习,读者将达到以下职业能力目标和要求:目标和要求Hadoop文件系统

3.1HDFS简介HDFS(Hadoopdistributedfilesystem)是ApacheHadoop分布式文件系统。随着物联网的出现和信息技术的不断发展,数据正以超快的速度增长,数据存储成为需要直接面对的问题,而HDFS的设计思想正好适应当前大数据爆发的形势。HDFS适合运行在闲置/廉价的硬件集群上,通过流式文件的访问方式来存取大文件,其具有以下几点优势:(1)高容错性(数据保存多个副本,能够防止数据丢失,确保数据安全)。(2)数据存取速率快(一次写入,多次读取,并且选择近的节点进行读写操作)。(3)适合大数据批量文件处理(节点规模可以拓展到成百上千个节点,提供很大的数据带宽进行文件处理)。(4)兼容各种软硬件平台。

3.2HDFS架构HDFS可以说是一切大数据平台的基础,因为它具有高性能、高可靠性、高扩展性、高吞吐率等优点,正是这些优点为大数据的存储、处理提供了强大的底层存储架构。HDFS采取的是Master/Slave架构方式,由客户端、NameNode、DataNode和SecondaryNameNode构成,这些在集群中都是以节点的形式存在的,每个节点运行不同类型的守护进程。HDFS主要架构示意图如图3-1所示。图3-1HDFS主要架构示意图

3.2HDFS架构3.2.1blockHDFS中是按照块(block)来存储数据的,客户端存储时会按照协议将大文件划分为一系列的块,NameNode存储文件的元数据,DataNode存储实际的数据块,同时会根据性能、负载等情况均匀地分散在不同的DataNode节点中。Hadoop数据块从2.7.2的默认64MB变为2.7.3的默认128MB,也可以通过Hadoop中的hdfssite.xml文件修改默认数据块大小。

3.2HDFS架构3.2.1block例如,某个300MB大小的文件,修改block大小之前(默认为128MB),其在HDFS中的实际存储情况如图3-2所示。图3-2HDFS默认配置下的文件块分布HDFS存储时,只占据每块实际容量大小,如图3-2中剩余的第三块只占据了44MB,而不是128MB。如果设置的块大小为300MB,则只需要一个块就解决了,寻址的开销就会被最小化,不过数据块不是设置得越大越好,虽然数据块设置得越大,mapper就越少,但mapper失败之后重启的时间也越长。

3.2HDFS架构3.2.2NameNodeNameNode(元数据节点)是HDFS的主进程,整个集群中只有一个,维护着整个文件系统的目录树,管理着数据块(block)映射信息,NameNode可以被认为是一个调度者,而DataNode就是一个命令执行者,只能被动地读写数据块。当NameNode启动时它会将存储在本地的fsimage(元数据镜像文件,保存着文件系统的目录树)和edits(元数据操作日志,保存着对目录树的修改操作)中的内容写入内存中已实例化的元数据(metadata)中,当metadata在内存中的大小或操作数超过一定阈值时,则会写入硬盘中存储使之持久化。

3.2HDFS架构3.2.3DataNodeDataNode(数据节点)是HDFS的从进程,所有的存储从节点上都应该有此进程。DataNode会按照客户端或者NameNode的要求,针对特定的数据块进行读写和复制操作。为了保证文件在设备上的安全性,可以通过Hadoop中的hdfs-site.xml文件来修改每个数据块在集群中保存的份数。数值越高,冗余性就越好,相对占用的存储空间就越多。由于HDFS采用的是Master/Slave架构,因此还可以实时动态地向集群中增加或删除DataNode节点。

3.2HDFS架构3.2.4SecondaryNameNodeSecondaryNameNode(辅助元数据节点)并非NameNode的备份,而是NameNode的辅助节点,定期从NameN

您可能关注的文档

文档评论(0)

+ 关注
实名认证
内容提供者

知识分享

1亿VIP精品文档

相关文档