Chapter-林子雨-大数据技术原理与应用-分布式文件系统HDFS(2016年1月26日版本).ppt

Chapter-林子雨-大数据技术原理与应用-分布式文件系统HDFS(2016年1月26日版本).ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.5.3 数据错误与恢复 3. 数据出错 网络传输和磁盘错误等因素,都会造成数据错误 客户端在读取到数据后,会采用md5和sha1对数据块进行校验,以确定读取到正确的数据 在文件被创建时,客户端就会对每一个文件块进行信息摘录,并把这些信息写入到同一个路径的隐藏文件里面 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块 3.6 HDFS数据读写过程 3.6.1 读数据的过程 3.6.2 写数据的过程 3.6.1 读数据的过程 下图展示了HDFS读数据的过程: 3.6.1 读数据的过程 下图展示了HDFS写数据的过程: 3.7 HDFS编程实践 Hadoop提供了关于HDFS在Linux操作系统上进行文件操作的常用Shell命令以及Java API。同时还可以利用Web界面查看和管理Hadoop文件系统 备注:Hadoop安装成功后,已经包含HDFS和MapReduce,不需要额外安装。而HBase等其他组件,则需要另外下载安装。 3.7.1 HDFS常用命令 HDFS有很多shell命令,其中,fs命令可以说是HDFS最常用的命令 利用该命令可以查看HDFS文件系统的目录结构、上传和下载数据、 创建文件等。该命令的用法为: hadoop fs [genericOptions] [commandOptions] 备注:Hadoop中有三种Shell命令方式: hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统 hadoop dfs只能适用于HDFS文件系统 hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统 3.7.1 HDFS常用命令 实例: hadoop fs -ls path:显示path指定的文件的详细信息 hadoop fs -mkdir path:创建path指定的文件夹 3.7.1 HDFS常用命令 实例: hadoop fs -cat path:将path指定的文件的内容输出到标准输出(stdout) hadoop fs -copyFromLocal localsrc dst:将本地源文件localsrc复制到路径dst指定的文件或文件夹中 3.7.2 HDFS的Web界面 在配置好Hadoop集群之后,可以通过浏览器登录“http://[NameNodeIP]:50070”访问HDFS文件系统 3.7.3 HDFS常用Java API及应用实例 利用Java API与HDFS进行交互 实例:利用hadoop 的java api检测伪分布式文件系统HDFS上是否存在某个文件? 第一步:放置配置文件到当前工程下面( eclipse工作目录的bin文件夹下面) 第二步:编写实现代码 具体请参见: 《大数据技术原理与应用 第三章 Hadoop分布式文件系统 学习指南》 访问地址: /blog/290-2/ 本章小结 分布式文件系统是大数据时代解决大规模数据存储问题的有效解决方案,HDFS开源实现了GFS,可以利用由廉价硬件构成的计算机集群实现海量数据的分布式存储 HDFS具有兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性等特点。但是,也要注意到,HDFS也有自身的局限性,比如不适合低延迟数据访问、无法高效存储大量小文件和不支持多用户写入及任意修改文件等 块是HDFS核心的概念,一个大的文件会被拆分成很多个块。HDFS采用抽象的块概念,具有支持大规模文件存储、简化系统设计、适合数据备份等优点 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点和若干个数据节点。名称节点负责管理分布式文件系统的命名空间;数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取 HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度。HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能。HDFS把硬件出错看作一种常态,设计了错误恢复机制 本章最后介绍了HDFS的数据读写过程以及HDFS编程实践方面的相关知识 附录:主讲教师 单位:厦门大学计算机科学系 E-mail: ziyulin@ 个人网页:/linziyu 数据库实验室网站: 主讲教师:林子雨 林子雨,男,1978年出生,博士(毕业于北京大学),现为厦门大学计算机科学系助理教授(讲师),曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国高校首个“数字教师”提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算

文档评论(0)

su66498185ci + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档