大数据技术应用（国家）知识点3：HDFS相关概念 HDFS相关概念.docxVIP

下载本文档

5
0
约3.06千字
约 4页
2020-10-11 发布于北京
举报
版权申诉

大数据技术应用（国家）知识点3：HDFS相关概念 HDFS相关概念.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE4 / NUMPAGES4 分布式文件系统介绍 HDFS相关概念摘要：通过此文档来了解HDFS的相关概念。关键词：HDFS； 1. HDFS的定义 HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。 2. HDFS要求与限制 2.1 能处理超大文件 HDFS以支持大数据集合为目标，文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑数以千万计的文件。 2.2 流式数据访问 HDFS设计的思想：一次写入、多次读取（write-one-read-many访问模型）。一个文件经过创建和写入，关闭之后就不需要改变。这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。 2.3 使用商用硬件 Hadoop不需要运行在昂贵并且高可靠性的硬件上，因此，硬件错误是常态。 HDFS可能是有成百上千的server组成，任何一个组件都可能失效，因此错误检测和快速、自动地恢复是HDFS的核心架构目标。 HDFS在面对这种故障时，被设计为能够继续运行而不让用户觉察到明显的中断。 2.4 低延迟数据访问 HDFS为达到高数据吞吐量而优化的，这可能会以延迟为代价。因此，需要毫秒范围内低延迟访问数据的应用不适合HDFS。 2.5 小文件存储问题 HDFS中的名称节点（Namenode）存储着文件系统的元数据，因此文件数量的限制也由Name Node的内存大小决定。 HDFS上每个文件索引数据块的大小约为150个字节，因此，HDFS上存储文件个数的上限就能确定了。 2.6 文件随机读写限制 HDFS中的文件只有一个写入者，而且写操作总是在文件的末尾。它不支持多个写入者，或是在文件的任意位置修改。 3. HDFS如何存储数据 HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、Name Node、Data Node和Secondary Name Node。下面我们分别介绍这四个组成部分。图1 HDFS分布式架构 3.1 Client：客户端（1）文件切分。文件上传HDFS的时候，Client 将文件切分成一个一个的Block，然后进行存储。（2）与 Name Node 交互，获取文件的位置信息；（3）与 Data Node 交互，读取或者写入数据。（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS。（5）Client可以通过一些命令来访问HDFS。 3.2 Name Node：Master，是HDFS的管理者（1）管理HDFS的名称空间（2）管理数据块（Block）映射信息（3）配置副本策略（4）处理客户端读写请求。 3.3 Data Node：Slave，Name Node 下达命令，Data Node 执行实际的操作。（1）存储实际的数据块。（2）执行数据块的读/写操作。 3.4 Secondary Name Node：（1）辅助 Name Node，分担其工作量。（2）定期合并 fsimage和fsedits，并推送给Name Node。（3）在紧急情况下，可辅助恢复 Name Node。 4. HDFS如何读取文件图2 HDFS文件读取 HDFS的文件读取原理，主要包括以下几个步骤：（1）首先调用FileSystem对象的open方法，其实获取的是一个DistributedFileSystem的实例。（2）DistributedFileSystem通过RPC（远程过程调用）获得文件的第一批block的locations，同一block按照重复数会返回多个locations，这些locations按照Hadoop拓扑结构排序，距离客户端近的排在前面。（3）前两步会返回一个FS DataInputStream对象，该对象会被封装成 DFS InputStream对象，DFS InputStream可以方便的管理data node和name node数据流。客户端调用read方法，DFS InputStream就会找出离客户端最近的data node并连接data node。（4）数据从data node源源不断的流向客户端。（5）如果第一个block块的数据读完了，就会关闭指向第一个block块的data node连接，接着读取下一个block块。这些操作对客户

您可能关注的文档

文档评论（0）

WanDocx + 关注: 实名认证

文档贡献者

大部分文档都有全套资料，如需打包优惠下载，请留言联系。所有资料均来源于互联网公开下载资源，如有侵权，请联系管理员及时删除。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据技术应用（国家）知识点3：HDFS相关概念 HDFS相关概念.docxVIP