大数据技术应用(国家) 知识点3:HDFS相关概念 HDFS相关概念.docxVIP

大数据技术应用(国家) 知识点3:HDFS相关概念 HDFS相关概念.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE4 / NUMPAGES4 分布式文件系统介绍 HDFS相关概念 摘 要:通过此文档来了解HDFS的相关概念。 关键词:HDFS; 1. HDFS的定义 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。 2. HDFS要求与限制 2.1 能处理超大文件 HDFS以支持大数据集合为目标,文件大小一般都在千兆至T字节,一个单一HDFS实例应该能支撑数以千万计的文件。 2.2 流式数据访问 HDFS设计的思想:一次写入、多次读取(write-one-read-many访问模型)。一个文件经过创建和写入,关闭之后就不需要改变。 这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。 2.3 使用商用硬件 Hadoop不需要运行在昂贵并且高可靠性的硬件上,因此,硬件错误是常态。 HDFS可能是有成百上千的server组成,任何一个组件都可能失效,因此错误检测和快速、自动地恢复是HDFS的核心架构目标。 HDFS在面对这种故障时,被设计为能够继续运行而不让用户觉察到明显的中断。 2.4 低延迟数据访问 HDFS为达到高数据吞吐量而优化的,这可能会以延迟为代价。因此,需要毫秒范围内低延迟访问数据的应用不适合HDFS。 2.5 小文件存储问题 HDFS中的名称节点(Namenode)存储着文件系统的元数据,因此文件数量的限制也由Name Node的内存大小决定。 HDFS上每个文件索引数据块的大小约为150个字节,因此,HDFS上存储文件个数的上限就能确定了。 2.6 文件随机读写限制 HDFS中的文件只有一个写入者,而且写操作总是在文件的末尾。它不支持多个写入者,或是在文件的任意位置修改。 3. HDFS如何存储数据 HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、Name Node、Data Node和Secondary Name Node。下面我们分别介绍这四个组成部分。 图1 HDFS分布式架构 3.1 Client:客户端 (1)文件切分。文件上传HDFS的时候,Client 将文件切分成一个一个的Block,然后进行存储。 (2)与 Name Node 交互,获取文件的位置信息; (3)与 Data Node 交互,读取或者写入数据。 (4)Client提供一些命令来管理HDFS,比如启动或者关闭HDFS。 (5)Client可以通过一些命令来访问HDFS。 3.2 Name Node:Master,是HDFS的管理者 (1)管理HDFS的名称空间 (2)管理数据块(Block)映射信息 (3)配置副本策略 (4)处理客户端读写请求。 3.3 Data Node:Slave,Name Node 下达命令,Data Node 执行实际的操作。 (1)存储实际的数据块。 (2)执行数据块的读/写操作。 3.4 Secondary Name Node: (1)辅助 Name Node,分担其工作量。 (2)定期合并 fsimage和fsedits,并推送给Name Node。 (3)在紧急情况下,可辅助恢复 Name Node。 4. HDFS如何读取文件 图2 HDFS文件读取 HDFS的文件读取原理,主要包括以下几个步骤: (1)首先调用FileSystem对象的open方法,其实获取的是一个DistributedFileSystem的实例。 (2)DistributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的locations,同一block按照重复数会返回多个locations,这些locations按照Hadoop拓扑结构排序,距离客户端近的排在前面。 (3)前两步会返回一个FS DataInputStream对象,该对象会被封装成 DFS InputStream对象,DFS InputStream可以方便的管理data node和name node数据流。客户端调用read方法,DFS InputStream就会找出离客户端最近的data node并连接data node。 (4)数据从data node源源不断的流向客户端。 (5)如果第一个block块的数据读完了,就会关闭指向第一个block块的data node连接,接着读取下一个block块。这些操作对客户

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档