Hadoop分布式文件系统1.PPT

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop分布式文件系统1

陈 辉 2016年3月 --hadoop分布式文件系统 Page ? * Hadoop分布式文件系统 0、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。 Page ? * Hadoop分布式文件系统 1、HDFS设计动机与目标 超大文件 HDFS以支持大数据集合为目标,一个存储在上面 的 典型文件大小一般都在千兆至T字节,一个单一HDFS实 例 应该能支撑数以千万计的文件。 流式数据访问 HDFS设计的思想:一次写入、多次读取。 HDFS应用对文 件要求的是write-one-read-many访问模型。一个文件经过 创建、写,关闭之后就不需要改变。这一假设简化了数据一 致性问题,使高吞吐量的数据访问成为可能。 Page ? * Hadoop分布式文件系统 1、HDFS设计动机与目标 商用硬件 Hadoop不需要运行在昂贵并且高可靠性的硬件上,因此, 硬件错误是常态,而非异常情况,HDFS可能是有成百上千 的server组成,任何一个组件都有可能一直失效,因此错误 检测和快速、自动的恢复是HDFS的核心架构目标。HDFS 在面对这种故障时,被设计为能够继续运行而不让用户觉察 到明显的中断。 低延迟数据访问 需要毫秒范围内低延迟访问数据的应用不适合HDFS。 HDFS为达到高数据吞吐量而优化的,这可能会以延迟为代 价。 Page ? * Hadoop分布式文件系统 1、HDFS设计动机与目标 大量小文件 名称节点(Namenode)存储着文件系统的元数据,因此文 件数量的限制也由名称节点的内存量决定。 根据经验,每个文件,索引目录以及块占大约150个字节, 因此,举例来说,如果有1百万个文件,每个文件占一个块 ,就至少需要300MB的内存,虽然存储上百万的文件是可 行的,十亿或更多的文件就可能超出目前的硬件能力。 多用户写入,任意修改文件 HDFS中的文件只有一个写入者,而且写操作总是在文件的 末尾。它不支持多个写入者,或是在文件的任意位置修改。 Page ? * Hadoop分布式文件系统 1、HDFS设计动机与目标 HDFS应用对文件要求的是write-one-read-many访问模型。一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。典型的如MapReduce框架,或者一个web crawler应用都很适合这个模型。 移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。 Page ? * Hadoop分布式文件系统 2、HDFS设计需求 分布式文件系统的设计需求大概是这么几个: 透明性 并发控制 可伸缩性 容错 安全需求 接下来从这几个角度去观察HDFS的设计和实现,可以更清楚地看出HDFS的应用场景和设计理念。 Page ? * Hadoop分布式文件系统 2、HDFS设计需求 (1)透明性。 如果按照开放分布式处理的标准确定就有8种透明性:访问的透明性、位置的透明性、并发透明性、复制透明性、故障透明性、移动透明性、性能透明性和伸缩透明性。对于分布式文件系统,最重要的是希望能达到5个透明性要求: 访问的透明性:用户能通过相同的操作来访问本地文件和远程文件资源。HDFS可以做到这一点,如果HDFS设置成本地文件系统,而非分布式,那么读写分布式HDFS的程序可以不用修改地读写本地文件,要做修改的是配置文件。 Page ? * Hadoop分布式文件系统 2、HDFS设计需求 (1)透明性。 位置的透明性:使用单一的文件命名空间,在不改变路径名的前提下,文件或者文件集合可以被重定位。HDFS集群只有一个Namenode来负责文件系 统命名空间的管理,文件的block可以重新分布复制,block可以增加或者减少副本,副本可以跨机架存储,而这一切对客户端都是透明的。 移动的透明性:这一点与位置的透明性类似,HDFS中的文件经常由于节点的失效、增加或者replication因子的改变或者重新均衡等进行着复制或者移动,而客户端和客户端程序并不需要改变什么,Namenode的edits日志文件记录着这些变更。 Page ? * Hadoop分布式文件

文档评论(0)

wumanduo11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档