HDFS入门概述.pptVIP

下载本文档

5
0
约6.83千字
约 42页
2016-11-12 发布于湖北
举报
版权申诉

HDFS入门概述.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不仅如此，基于元数据块的存储方式非常适合用于备份，利用备份可提供数据容错能力和可用性。 HDFS的概念元数据块无法读取从集群读取无论存在何处当然，这个只是在可控制内的保证整体数据完整性，保证数据的完整性详细运作原理比这复杂。其实，HDFS对与用户来说，可以直接看成是一个巨大的硬盘。 HDFS的概念所以，HDFS和文件系统相似，用fsck指令可以显示块信息。 % hadoop fsck / -files -blocks 在介绍HDFS之前要说的为什么我们需要HDFS 如何使用HDFS HDFS的概念 HDFS关键运行机制目录 HDFS是基于主从结构（master/slaver）构件。 HDFS的关键运作机制 master slaver slaver slaver 需要大量内存需要大量硬盘配置HDFS集群成本主要在内存和硬盘在HDFS的主从结构中，有两类节点 namenode和datanode。他们以管理者-工作者模式工作。 HDFS的关键运作机制主节点维护着文件系统树和整棵树内的所有文件和目录。命名空间镜像文件（永久）编辑日志文件（永久）也记录着每个文件中各个数据块所在的数据节点信息。（临时记录，数据节点可能会重建）子节点文件系统的工作节点本地化的文件数据块自身存储的数据块列表子节点才是HDFS真正的存储和检索地点，如果想在主节点做整个集群数据的索引并检索的话，请考虑可行性，毕竟HDFS不擅长做巨型索引。客户端（client）代表用户通过与namenode和datanode交互访问整个文件系统。可以是具体程序，也可以是应用。 HDFS的关键运作机制客户端交互 HDFS 客户端提供一个类似POSIX的文件系统接口类似操作系统中的文件界面所以，用户在编程时，无需知道namenode和datanode也可以实现功能没有namenode，文件系统会崩溃，文件系统上的所有文件将丢失（无法读出，因为无法定位元数据块的位置，也就无法根据datanode的块来重构文件）。 HDFS的关键运作机制没有datanode，文件系统不会崩溃，文件系统只是无法存储文件，也不会丢失数据。备份组成文件系统元数据持久状态的文件。操作方法是在写入本地磁盘的同时，写入一个远程挂载的网络文件系统。解决方案一在运行集群时，运行一个辅助namenode，但不能用作namenode，辅助主节点是用来定期通过编辑日志合并命名空间镜像，防止编辑日志过大。主节点失效时数据会部分丢失。解决方案二在介绍HDFS之前要说的为什么我们需要HDFS 如何使用HDFS HDFS的概念 HDFS关键运行机制目录使用HDFS需要了解的配置信息 HDFS是在安装hadoop-0.20.2.tar.gz并成功配置后即可使用。具体安装过程不再赘述。如何使用HDFS 无论是使用shell脚本，或者使用WEB UI进行操作，使用前必须得明白HDFS的配置。便于存储操作或者操作优化。 fs.default.name hadoop.tmp.dir dfs.name.dir dfs.data.dir dfs.replication mapred.job.tracker masters slaves 例如我们使用伪分布式配置（也就是1个namenode和1个datanode配置方式）。如何使用HDFS fs.default.name = hdfs://localhost/ 说明hdfs的URI是localhost，hdfs的守护进程将通过该属性确定namenode的主机和端口。分布式文件系统将文件存储为1份备份. 默认为localhost，端口为8020 dfs.replication = 1 文件的本地映像存储1份常用HDFS命令。如何使用HDFS 本地文件复制到HDFS：% hadoop fs –copyFromLocal localfile.dir hdfs.dir 在HDFS内创建目录：% hadoop fs –mkdir name.dir 在HDFS内查看目录：% hadoop fs –ls name.dir 在HDFS内删除目录：% hadoop fs –rmr name.dir HDFS ——The Hadoop Distributed File System （Hadoop分布式文件系统）版权声明：本文档中涉及到hadoop、CDH、Apache等文字和图标皆来源于网络，其所有权归原始所有者所有。说明：本文是基于《Hadoop ：The Definitive Guide》O’Reilly Media , Inc.编写，同时参考论坛上的最新资料，如有错误和疏漏请指正。 Hadoop是由nutch——一个开放源