HDFS分布式文件系统介绍.pdf

下载文档

633
0
约1.07万字
约 48页
2018-01-27 发布于浙江
举报
版权申诉
保障服务

HDFS分布式文件系统介绍.pdf

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop分布式文件系统提纲 Hadoop原理 HDFS • HDFS文件系统原理 • HDFS读写过程 Hadoop浏览器界面 Hadoop常用命令 Hadoop文件系统 • 压缩 2 • Hadoop 架构 Task Task tracker tracker Map Reduce Job Layer tracker HDFS Name Layer node Data Data node node Reference: /wiki/File:Hadoop_1.png HDFS与Google文件系统GFS GFS的设计目的：为了存储Google内部大量的数据，主要是全球互联网的数据，需要极大的容量，为搜索引擎提供后备的存储支持。 Hadoop文件系统HDFS的设计思想来源于GFS ，HDFS的基本结构与GFS一致。 4 HDFS的基本假定一个分布式文件系统存储大量的数据 • 建立在大规模的廉价x86集群之上 • 硬件模块会出错，出错可能同时发生 ”适量” 的大文件 • 文件数量可能在百万级 • 文件很大，数百GB大小很常见读写特性：写入一次，多次读取。写入过程可能是并发的读的过程是连续的读取，一次将一个文件全部内容读一遍 • 针对MapReduce优化整个系统对于吞吐率的要求非常高，但是对于延迟不敏感 • 面向批处理 5 HDFS的特点基于本地文件系统之上，用户态存储海量信息（TB~PB ），支持很大单个文件。通过复制提供高可靠性 • 单个或者多个节点不工作，对系统不会造成任何影响，数据仍然可用。很高的系统吞吐量。水平扩展：简单加入更多服务器就能够扩展容量和吞吐量 • 最大的实用集群:4000个节点。针对MapReduce优化。 • HDFS对顺序读进行了优化 • 尽可能根据数据的本地局部性进行访问与计算。 6 HDFS的基本设计数据块：文件被划分为固定大小的数据块进行存储 • 数据块（缺省为64MB ）远远大于一般文件系统数据块的大小 – 减少元数据的量 – 有利于顺序读写（在磁盘上数据顺序存放）可靠性: 数据通过副本的方式保存在多个数据节点（DataNode ）上 • 默认3个副本。 • 副本选择会考虑机架信息以防整个机架同时掉电系统设计简化：用单个节点(NameNode)来保存文件系统元数据和管理/协调 7 HDFS的基本设计（2 ）数据缓存：DataNode没有数据缓存 • 由于文件的访问是扫描式的，不具有局部性访问方式 • 读、写、文件改名、删除等 • 文件内容不允许覆盖更新overwrite • 提供一个特殊的访问接口：追加append 8 HDFS系统结构中的主要模块 NameNode ： • 单台服务器，系统中的单点 • NameNode管理所有文件系统的元数据以及协调管理客户端对于数据的访问 • 管理集群节点和各种操作（如负载均衡） D

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

HDFS分布式文件系统介绍.pdf