Hadoop HDFS文件系统技术概述.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术创新,变革未来 Hadoop Distributed File System技术介绍 内容 分布式文件系统 HDFS优缺点 HDFS在Hadoop生态系统中的位置 Hadoop生态系统 HDFS体系结构 分布式文件系统 分布式文件系统 (Distributed File System)是指文件系 统管理的物理存储资源不是在一台节点上,而是分布在集群 中的多个节点上。 HDFS是什么 HDFS 源于 Google 的GFS ,是 GFS 的开源版本 Hadoop核心子项目 分布式文件系统 大数据 运行在廉价的机器上 高容错,因为硬件错误是常态 高吞吐,基于流数据模式访问 一次写入多次读取  数据就近原则 支持异构存储 /docs/r2.7.3/hadoop- project-dist/hadoop-hdfs/HdfsDesign.html HDFS优点 高容错,可构建在廉价机器上 1)数据自动保存多个副本,通过增加副本,提高容错性 2)某1个副本丢失以后,可以自动恢复 适合批处理 1) 移动计算而不是移动数据 2) 把数据位置暴露给计算框架 适合大数据处理 1)处理数据达到 GB、TB、甚至PB级别的数据 2)能够处理百万规模以上的文件数量,数量相当之大 3)能够处理10K节点的规模 流式文件访问 1)一次写入,多次读取,文件一旦写入不能修改 2)保证数据的一致性 3)高吞吐率 HDFS缺点 低延时数据访问 1) 毫秒级内数据存储 2) 毫秒级内读取数据 小文件存储 1) 大量小文件会占用 NameNode大量的内存来存储文件 、目录和块信息,而NameNode的内存总是有限的 2)小文件存储的寻道时间会超过读取时间,违反了HDFS 的设计目标 并发写入、文件随机修改 1)一个文件只能有一个写,不允许多个线程同时写。 2)仅支持数据 append (追加),不支持文件的随机修改 HDFS在Hadoop生态系统中的位置 HDFS术语 HDFS 采用Master/Slave的架构来存储数据,该架 构主要由四个部分组成  HDFS Client  NameNode  DataNode  SecondaryNameNode HDFS体系结构 HDFS体系结构 HDFS体系结构 HDFS Client 文件切分,文件上传 HDFS 的时候,Client 将文 件切分成 一个一个的Block,然后进行存储 与 NameNode 交互,获取文件的位置信息 与 DataNode 交互,读取或者写入数据 Client 提供一些命令来管理 HDFS,比如启动或 者关闭HDFS Client 可以通过一些命令来访问 HDFS NameNode master ,一个管理者,不实际存储数据 管理 HDFS 的名称空间 管理数据块 (Block)映射信息 配置副本策略 处理客户端读写请求 DataNode Slave ,NameNode 下达命令,DataNode 执行 实际的操作 存储实际的数据块 执行数据块的读/写操作 SecondaryNameNode (1) SecondaryNameNode (2) NameNode SecondaryNameNode SecondaryNameNode (3) 辅助NameNode,分担NameNode工作量 定期合并 fsimage和edits ,并推送给NameNode 执行合并时机 根据配置文件设置的时间间隔 fs.checkpoint.period 默认3600秒 根据配置文件设

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档