Hadoop大数据开发实例教程：Hadoop文件系统PPT教学课件.pptx

下载文档

2
0
约6.08千字
约 29页
2025-03-31 发布于浙江
举报
版权申诉
保障服务

Hadoop大数据开发实例教程：Hadoop文件系统PPT教学课件.pptx

1、本文档共29页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop文件系统033.1HDFS简介3.2HDFS架构3.3HDFS读写文件流程3.4HDFS接口3.5实训3Hadoop的安装与基本配置——完全分布式

知道HDFS的架构及相关概念；知道HDFS文件读写流程及副本存放策略；知道HDFS的几种接口类型及接口的应用场景；掌握HDFSWeb接口的登录和验证方法。1243本模块讲解Hadoop文件系统（HDFS）架构、读写文件流程和HDFS接口，使读者能够掌握相关知识，为后续学习打好基础。HDFS架构中主要涉及几个概念和对应的设置，读写文件流程通过图文并茂的方式进行讲解，最后通过HDFS的Web接口对前面所做的讲解和配置进行验证。通过本模块的学习，读者将达到以下职业能力目标和要求：目标和要求Hadoop文件系统

3.1HDFS简介HDFS（Hadoopdistributedfilesystem）是ApacheHadoop分布式文件系统。随着物联网的出现和信息技术的不断发展，数据正以超快的速度增长，数据存储成为需要直接面对的问题，而HDFS的设计思想正好适应当前大数据爆发的形势。HDFS适合运行在闲置/廉价的硬件集群上，通过流式文件的访问方式来存取大文件，其具有以下几点优势：（1）高容错性（数据保存多个副本，能够防止数据丢失，确保数据安全）。（2）数据存取速率快（一次写入，多次读取，并且选择近的节点进行读写操作）。（3）适合大数据批量文件处理（节点规模可以拓展到成百上千个节点，提供很大的数据带宽进行文件处理）。（4）兼容各种软硬件平台。

3.2HDFS架构HDFS可以说是一切大数据平台的基础，因为它具有高性能、高可靠性、高扩展性、高吞吐率等优点，正是这些优点为大数据的存储、处理提供了强大的底层存储架构。HDFS采取的是Master/Slave架构方式，由客户端、NameNode、DataNode和SecondaryNameNode构成，这些在集群中都是以节点的形式存在的，每个节点运行不同类型的守护进程。HDFS主要架构示意图如图3-1所示。图3-1HDFS主要架构示意图

3.2HDFS架构3.2.1blockHDFS中是按照块（block）来存储数据的，客户端存储时会按照协议将大文件划分为一系列的块，NameNode存储文件的元数据，DataNode存储实际的数据块，同时会根据性能、负载等情况均匀地分散在不同的DataNode节点中。Hadoop数据块从2.7.2的默认64MB变为2.7.3的默认128MB，也可以通过Hadoop中的hdfssite.xml文件修改默认数据块大小。

3.2HDFS架构3.2.1block例如，某个300MB大小的文件，修改block大小之前（默认为128MB），其在HDFS中的实际存储情况如图3-2所示。图3-2HDFS默认配置下的文件块分布HDFS存储时，只占据每块实际容量大小，如图3-2中剩余的第三块只占据了44MB，而不是128MB。如果设置的块大小为300MB，则只需要一个块就解决了，寻址的开销就会被最小化，不过数据块不是设置得越大越好，虽然数据块设置得越大，mapper就越少，但mapper失败之后重启的时间也越长。

3.2HDFS架构3.2.2NameNodeNameNode（元数据节点）是HDFS的主进程，整个集群中只有一个，维护着整个文件系统的目录树，管理着数据块（block）映射信息，NameNode可以被认为是一个调度者，而DataNode就是一个命令执行者，只能被动地读写数据块。当NameNode启动时它会将存储在本地的fsimage（元数据镜像文件，保存着文件系统的目录树）和edits（元数据操作日志，保存着对目录树的修改操作）中的内容写入内存中已实例化的元数据（metadata）中，当metadata在内存中的大小或操作数超过一定阈值时，则会写入硬盘中存储使之持久化。

3.2HDFS架构3.2.3DataNodeDataNode（数据节点）是HDFS的从进程，所有的存储从节点上都应该有此进程。DataNode会按照客户端或者NameNode的要求，针对特定的数据块进行读写和复制操作。为了保证文件在设备上的安全性，可以通过Hadoop中的hdfs-site.xml文件来修改每个数据块在集群中保存的份数。数值越高，冗余性就越好，相对占用的存储空间就越多。由于HDFS采用的是Master/Slave架构，因此还可以实时动态地向集群中增加或删除DataNode节点。

3.2HDFS架构3.2.4SecondaryNameNodeSecondaryNameNode（辅助元数据节点）并非NameNode的备份，而是NameNode的辅助节点，定期从NameN

您可能关注的文档

文档评论（0）

点 + 关注: 实名认证

内容提供者

知识分享

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Hadoop大数据开发实例教程：Hadoop文件系统PPT教学课件.pptx