HDFS工作原理.docx

下载文档

24
0
约3.85千字
约 8页
2016-12-01 发布于重庆
举报
版权申诉
保障服务

HDFS工作原理.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

HDFS工作原理

第PAGE8页, 共 NUMPAGES \* Arabic \* MERGEFORMAT 8页 HDFS工作原理 HDFS特性高可靠性：硬件故障是常态，而不是异常，故障的检测和自动快速恢复是HDFS一个很核心的设计目标；数据访问：运行在HDFS之上的应用程序必须流式地访问它们的数据集，它不是运行在普通文件系统之上的普通程序；大数据集：运行在HDFS之上的程序有很大量的数据集，HDFS默认会将文件分割成block，64M为1个block。然后将block按键值对存储在HDFS上，并将键值对的映射存到内存中。如果小文件太多，那内存的负担会很重；简单一致性模型：大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式；移动计算比移动数据更经济：在靠近计算数据所存储的位置来进行计算是最理想的状态，尤其是在数据集特别巨大的时候。这样消除了网络的拥堵，提高了系统的整体吞吐量；异构软硬件平台间的可移植性：HDFS被设计成可以简便地实现平台间的迁移，这将推动需要大数据集的应用更广泛地采用HDFS作为平台；多个副本：且提供容错机制，副本丢失或宕机自动恢复，默认存3份；低成本：运行在廉价的机器上，商用机； NameNode与DataNode：如上图所示，HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode：是Master节点，是大领导。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间；namenode 内存中存储的是 = fsimage+edits。 SecondaryNameNode：是一个小弟，分担大哥namenode的工作量；是NameNode的冷备份；合并fsimage和fsedits然后再发给namenode。SecondaryNameNode负责定时默认1小时，从namenode上，获取fsimage和edits来进行合并，然后再发送给namenode。减少namenode的工作量。所以讲secondarynamenode，单独放置到一台机器上，可以增大冗余，但是有可能会丢失一小时内处理的数据。 DataNode：Slave节点，奴隶，干活的。负责存储client发来的数据块block；执行数据块的读写操作。热备份：b是a的热备份，如果a坏掉。那么b马上运行代替a的工作。冷备份： b是a的冷备份，如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息，减少a坏掉之后的损失。 fsimage:元数据镜像文件（文件系统的目录树。） edits：元数据的操作日志（针对文件系统做的修改操作记录）异常处理鲁棒性 HDFS的主要目标就是在存在故障的情况下也能可靠地存储数据。三个最常见的故障是名字节点故障，数据节点故障和网络断开。重新复制一个数据节点周期性发送一个心跳包到名字节点。网络断开会造成一组数据节点子集和名字节点失去联系。名字节点根据缺失的心跳信息判断故障情况。名字节点将这些数据节点标记为死亡状态，不再将新的IO请求转发到这些数据节点上，这些数据节点上的数据将对HDFS不再可用，可能会导致一些块的复制因子降低到指定的值。名字节点检查所有的需要复制的块，并开始复制他们到其他的数据节点上。重新复制在有些情况下是不可或缺的，例如：数据节点失效，副本损坏，数据节点磁盘损坏或者文件的复制因子增大。数据正确性从数据节点上取一个文件块有可能是坏块，坏块的出现可能是存储设备错误，网络错误或者软件的漏洞。HDFS客户端实现了HDFS文件内容的校验。当一个客户端创建一个HDFS文件时，它会为每一个文件块计算一个校验码并将校验码存储在同一个HDFS命名空间下一个单独的隐藏文件中。当客户端访问这个文件时，它根据对应的校验文件来验证从数据节点接收到的数据。如果校验失败，客户端可以选择从其他拥有该块副本的数据节点获取这个块。元数据失效 FsImage和Editlog是HDFS的核心数据结构。这些文件的损坏会导致整个集群的失效。因此，名字节点可以配置成支持多个FsImage和EditLog的副本。任何FsImage和EditLog的更新都会同步到每一份副本中。同步更新多个EditLog副本会降低名字节点的命名空间事务交易速率。但是这种降低是可以接受的，因为HDFS程序中产生大量的数据请求，而不是元数据请求。名字节点重新启动时，选择最新一致的FsImage和EditLog。名字节点对于一个HDFS集群是单点失效的。假如名字节点失效，就需要人工的干预。还不支持自动重启和到其它名字节点的切换。写操作有一个文件FileA，100M大小。Client将FileA

您可能关注的文档

最近下载

文档评论（0）

aicencen + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 对外合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号：51011502000106 | 工信部备案号：蜀ICP备08101938号-1 | ICP经营许可证/EDI许可证：川B2-20180569 | 公司营业执照 | 出版物经营许可证：成新出发高新字第046号
© 2010-2024 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992