- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Hadoop文件系统033.1HDFS简介3.2HDFS架构3.3HDFS读写文件流程3.4HDFS接口3.5实训3Hadoop的安装与基本配置——完全分布式
知道HDFS的架构及相关概念;知道HDFS文件读写流程及副本存放策略;知道HDFS的几种接口类型及接口的应用场景;掌握HDFSWeb接口的登录和验证方法。1243本模块讲解Hadoop文件系统(HDFS)架构、读写文件流程和HDFS接口,使读者能够掌握相关知识,为后续学习打好基础。HDFS架构中主要涉及几个概念和对应的设置,读写文件流程通过图文并茂的方式进行讲解,最后通过HDFS的Web接口对前面所做的讲解和配置进行验证。通过本模块的学习,读者将达到以下职业能力目标和要求:目标和要求Hadoop文件系统
3.1HDFS简介HDFS(Hadoopdistributedfilesystem)是ApacheHadoop分布式文件系统。随着物联网的出现和信息技术的不断发展,数据正以超快的速度增长,数据存储成为需要直接面对的问题,而HDFS的设计思想正好适应当前大数据爆发的形势。HDFS适合运行在闲置/廉价的硬件集群上,通过流式文件的访问方式来存取大文件,其具有以下几点优势:(1)高容错性(数据保存多个副本,能够防止数据丢失,确保数据安全)。(2)数据存取速率快(一次写入,多次读取,并且选择近的节点进行读写操作)。(3)适合大数据批量文件处理(节点规模可以拓展到成百上千个节点,提供很大的数据带宽进行文件处理)。(4)兼容各种软硬件平台。
3.2HDFS架构HDFS可以说是一切大数据平台的基础,因为它具有高性能、高可靠性、高扩展性、高吞吐率等优点,正是这些优点为大数据的存储、处理提供了强大的底层存储架构。HDFS采取的是Master/Slave架构方式,由客户端、NameNode、DataNode和SecondaryNameNode构成,这些在集群中都是以节点的形式存在的,每个节点运行不同类型的守护进程。HDFS主要架构示意图如图3-1所示。图3-1HDFS主要架构示意图
3.2HDFS架构3.2.1blockHDFS中是按照块(block)来存储数据的,客户端存储时会按照协议将大文件划分为一系列的块,NameNode存储文件的元数据,DataNode存储实际的数据块,同时会根据性能、负载等情况均匀地分散在不同的DataNode节点中。Hadoop数据块从2.7.2的默认64MB变为2.7.3的默认128MB,也可以通过Hadoop中的hdfssite.xml文件修改默认数据块大小。
3.2HDFS架构3.2.1block例如,某个300MB大小的文件,修改block大小之前(默认为128MB),其在HDFS中的实际存储情况如图3-2所示。图3-2HDFS默认配置下的文件块分布HDFS存储时,只占据每块实际容量大小,如图3-2中剩余的第三块只占据了44MB,而不是128MB。如果设置的块大小为300MB,则只需要一个块就解决了,寻址的开销就会被最小化,不过数据块不是设置得越大越好,虽然数据块设置得越大,mapper就越少,但mapper失败之后重启的时间也越长。
3.2HDFS架构3.2.2NameNodeNameNode(元数据节点)是HDFS的主进程,整个集群中只有一个,维护着整个文件系统的目录树,管理着数据块(block)映射信息,NameNode可以被认为是一个调度者,而DataNode就是一个命令执行者,只能被动地读写数据块。当NameNode启动时它会将存储在本地的fsimage(元数据镜像文件,保存着文件系统的目录树)和edits(元数据操作日志,保存着对目录树的修改操作)中的内容写入内存中已实例化的元数据(metadata)中,当metadata在内存中的大小或操作数超过一定阈值时,则会写入硬盘中存储使之持久化。
3.2HDFS架构3.2.3DataNodeDataNode(数据节点)是HDFS的从进程,所有的存储从节点上都应该有此进程。DataNode会按照客户端或者NameNode的要求,针对特定的数据块进行读写和复制操作。为了保证文件在设备上的安全性,可以通过Hadoop中的hdfs-site.xml文件来修改每个数据块在集群中保存的份数。数值越高,冗余性就越好,相对占用的存储空间就越多。由于HDFS采用的是Master/Slave架构,因此还可以实时动态地向集群中增加或删除DataNode节点。
3.2HDFS架构3.2.4SecondaryNameNodeSecondaryNameNode(辅助元数据节点)并非NameNode的备份,而是NameNode的辅助节点,定期从NameN
您可能关注的文档
- Web前端设计基础教程:CSS基础PPT教学课件.pptx
- Web前端设计基础教程:HTML基础PPT教学课件.pptx
- Windows网络服务器配置与管理:DHCP服务器的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:DNS服务器的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:基本磁盘和动态磁盘的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:基于eNSP的综合组网PPT教学课件.pptx
- 电子商务运营与推广:网店活动PPT教学课件.pptx
- 工程制图:绪论PPT教学课件.ppt
- 构成与应用:立体构成概述PPT教学课件.pptx
- 构成与应用:认识色彩PPT教学课件.pptx
- 黑龙江省宁安市职业能力倾向测验事业单位考试(自然科学专技类C类)试题必考题.docx
- 黑龙江省宁安市职业能力倾向测验事业单位考试(综合管理类A类)试题最新.docx
- 黑龙江省宁安市职业能力倾向测验事业单位考试(综合管理类A类)试题推荐.docx
- 黑龙江省宁安市职业能力倾向测验事业单位考试(综合管理类A类)试题附答案.docx
- 黑龙江省安达市事业单位考试(中小学教师类D类)职业能力倾向测验试卷最新.docx
- 黑龙江省安达市事业单位考试(中小学教师类D类)职业能力倾向测验试卷最新.docx
- 黑龙江省宁安市事业单位考试职业能力倾向测验(自然科学专技类C类)强化训练题库必考题.docx
- Unit3OntheMoveUnderstandingideasAGamefortheWorld课件-高中英语.pptx
- 黑龙江省宁安市职业能力倾向测验事业单位考试(综合管理类A类)试题推荐.docx
- 黑龙江省宁安市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库最新.docx
文档评论(0)