HDFS入门概述.pptVIP

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不仅如此,基于元数据块的存储方式非常适合用于备份,利用备份可提供数据容错能力和可用性。 HDFS的概念 元数据块无法读取 从集群读取无论存在何处 当然,这个只是在可控制内的保证整体数据完整性,保证数据的完整性详细运作原理比这复杂。 其实,HDFS对与用户来说,可以直接看成是一个巨大的硬盘。 HDFS的概念 所以,HDFS和文件系统相似,用fsck指令可以显示块信息。 % hadoop fsck / -files -blocks 在介绍HDFS之前要说的 为什么我们需要HDFS 如何使用HDFS HDFS的概念 HDFS关键运行机制 目录 HDFS是基于主从结构(master/slaver)构件。 HDFS的关键运作机制 master slaver slaver slaver 需要大量内存 需要大量硬盘 配置HDFS集群成本主要在内存和硬盘 在HDFS的主从结构中,有两类节点 namenode和datanode。他们以管理者-工作者模式工作。 HDFS的关键运作机制 主节点 维护着文件系统树和整棵树内的所有文件和目录。 命名空间镜像文件(永久) 编辑日志文件(永久) 也记录着每个文件中各个数据块所在的数据节点信息。(临时记录,数据节点可能会重建) 子节点 文件系统的工作节点 本地化的文件数据块 自身存储的数据块列表 子节点才是HDFS真正的存储和检索地点,如果想在主节点做整个集群数据的索引并检索的话,请考虑可行性,毕竟HDFS不擅长做巨型索引。 客户端(client)代表用户通过与namenode和datanode交互访问整个文件系统。可以是具体程序,也可以是应用。 HDFS的关键运作机制 客户端 交互 HDFS 客户端提供一个类似POSIX的文件系统接口 类似操作系统中的文件界面 所以,用户在编程时,无需知道namenode和datanode也可以实现功能 没有namenode,文件系统会崩溃,文件系统上的所有文件将丢失(无法读出,因为无法定位元数据块的位置,也就无法根据datanode的块来重构文件)。 HDFS的关键运作机制 没有datanode,文件系统不会崩溃,文件系统只是无法存储文件,也不会丢失数据。 备份组成文件系统元数据持久状态的文件。操作方法是在写入本地磁盘的同时,写入一个远程挂载的网络文件系统。 解决方案一 在运行集群时,运行一个辅助namenode,但不能用作namenode,辅助主节点是用来定期通过编辑日志合并命名空间镜像,防止编辑日志过大。主节点失效时数据会部分丢失。 解决方案二 在介绍HDFS之前要说的 为什么我们需要HDFS 如何使用HDFS HDFS的概念 HDFS关键运行机制 目录 使用HDFS需要了解的配置信息 HDFS是在安装hadoop-0.20.2.tar.gz并成功配置后即可使用。具体安装过程不再赘述。 如何使用HDFS 无论是使用shell脚本,或者使用WEB UI进行操作,使用前必须得明白HDFS的配置。便于存储操作或者操作优化。 fs.default.name hadoop.tmp.dir dfs.name.dir dfs.data.dir dfs.replication mapred.job.tracker masters slaves 例如我们使用伪分布式配置(也就是1个namenode和1个datanode配置方式)。 如何使用HDFS fs.default.name = hdfs://localhost/ 说明hdfs的URI是localhost,hdfs的守护进程将通过该属性确定namenode的主机和端口。分布式文件系统将文件存储为1份备份. 默认为localhost,端口为8020 dfs.replication = 1 文件的本地映像存储1份 常用HDFS命令。 如何使用HDFS 本地文件复制到HDFS:% hadoop fs –copyFromLocal localfile.dir hdfs.dir 在HDFS内创建目录:% hadoop fs –mkdir name.dir 在HDFS内查看目录:% hadoop fs –ls name.dir 在HDFS内删除目录:% hadoop fs –rmr name.dir HDFS ——The Hadoop Distributed File System (Hadoop分布式文件系统) 版权声明: 本文档中涉及到hadoop、CDH、Apache等文字和图标皆来源于网络,其所有权归原始所有者所有。 说明: 本文是基于《Hadoop :The Definitive Guide》O’Reilly Media , Inc.编写,同时参考论坛上的最新资料,如有错误和疏漏请指正。 Hadoop是由nutch——一个开放源

文档评论(0)

w5544434 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档