HDFS分布式文件系统介绍.pdf

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop分布式文件系统 提纲 Hadoop原理 HDFS • HDFS文件系统原理 • HDFS读写过程 Hadoop浏览器界面 Hadoop常用命令 Hadoop文件系统 • 压缩 2 • Hadoop 架构 Task Task tracker tracker Map Reduce Job Layer tracker HDFS Name Layer node Data Data node node Reference: /wiki/File:Hadoop_1.png HDFS与Google文件系统GFS GFS的设计目的:为了存储Google内部大量的数据,主要是 全球互联网的数据,需要极大的容量,为搜索引擎提供后备的 存储支持。 Hadoop文件系统HDFS的设计思想来源于GFS ,HDFS的基 本结构与GFS一致。 4 HDFS的基本假定 一个分布式文件系统存储大量的数据 • 建立在大规模的廉价x86集群之上 • 硬件模块会出错,出错可能同时发生 ”适量” 的大文件 • 文件数量可能在百万级 • 文件很大,数百GB大小很常见 读写特性:写入一次,多次读取。写入过程可能是并发的 读的过程是连续的读取,一次将一个文件全部内容读一遍 • 针对MapReduce优化 整个系统对于吞吐率的要求非常高,但是对于延迟不敏感 • 面向批处理 5 HDFS的特点 基于本地文件系统之上,用户态 存储海量信息 (TB~PB ),支持很大单个文件。 通过复制提供高可靠性 • 单个或者多个节点不工作,对系统不会造成任何影响,数据仍然可用。 很高的系统吞吐量。 水平扩展:简单加入更多服务器就能够扩展容量和吞吐量 • 最大的实用集群:4000个节点。 针对MapReduce优化。 • HDFS对顺序读进行了优化 • 尽可能根据数据的本地局部性进行访问与计算。 6 HDFS的基本设计 数据块: 文件被划分为固定大小的数据块进行存储 • 数据块(缺省为64MB )远远大于一般文件系统数据块的大小 – 减少元数据的量 – 有利于顺序读写(在磁盘上数据顺序存放 ) 可靠性: 数据通过副本的方式保存在多个数据节点 (DataNode )上 • 默认3个副本。 • 副本选择会考虑机架信息以防整个机架同时掉电 系统设计简化 :用单个节点(NameNode)来保存文件系统元 数据和管理/协调 7 HDFS的基本设计(2 ) 数据缓存:DataNode没有数据缓存 • 由于文件的访问是扫描式的,不具有局部性 访问方式 • 读、写、文件改名、删除等 • 文件内容不允许覆盖更新overwrite • 提供一个特殊的访问接口:追加append 8 HDFS系统结构中的主要模块 NameNode : • 单台服务器,系统中的单点 • NameNode管理所有文件系统的元数据以及协调管理客户端对于数据的 访问 • 管理集群节点和各种操作(如负载均衡) D

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档