分布式文件系统HDFS讲义.ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7.3 HDFS常用Java API及应用实例 (2)在Eclipse创建项目 第一次打开Eclipse,需要填写workspace(工作空间),用来保存程序所在的位置,这里按照默认,不需要改动,如下图 7.3 HDFS常用Java API及应用实例 点击“OK”按钮,进入Eclipse软件。开始创建项目,选择顶部菜单File—>New—>Java Project,如下图 7.3 HDFS常用Java API及应用实例 输入项目名称,本教程输入的项目名称是“Dblab”,其他不用改动,点击“Finish”按钮即可。 7.3 HDFS常用Java API及应用实例 为项目加载所需要用到的jar包 如何获取jar包 Java API所在的jar包都在已经安装好的hadoop文件夹里,路径:/usr/local/hadoop/share/hadoop(如果读者安装的hadoop不在此目录,请找到jar包所在的文件夹) 7.3 HDFS常用Java API及应用实例 在所在项目中加载jar包,具体操作如下:在所选的Eclipse项目(Dblab)上右键点击—>弹出菜单中选择>Properties—>Java Build Path—>Libraries—>Add External JARS 7.3 HDFS常用Java API及应用实例 7.3 HDFS常用Java API及应用实例 编程实例 利用Hadoop 的Java API检测伪分布式文件系统HDFS上是否存在某个文件? 下面编写一个简单的程序来测试伪分布式文件系统HDFS上是否存在input.txt文件? 第一步:放置配置文件到当前工程下面 需要把集群上的core-site.xml和hdfs-site.xml(这两文件存在/hadoop/etc/hadoop目录下)放到当前工程项目下,即eclipse工作目录的bin文件夹下面。 7.3 HDFS常用Java API及应用实例 第二步:编写实现代码 import?org.apache.hadoop.conf.Configuration;??? import?org.apache.hadoop.fs.FileSystem;?? import?org.apache.hadoop.fs.Path;?? ? public?class?Chapter3?{???? ????public?static?void?main(String[]?args)?{?? ??????????try?{?? ??????????????String?filename?=?"hdfs://localhost:9000/user/hadoop/test.txt";?? ? ??????????????Configuration?conf?=?new?Configuration();?? ? ??????????????FileSystem?fs?=?FileSystem.get(conf); ??????????????if(fs.exists(new?Path(filename))){ ??????????????????System.out.println("文件存在"); ??????????????}else{ ??????????????????System.out.println("文件不存在"); ??????????????} ????????}?catch?(Exception?e)?{?? ????????????e.printStackTrace();?? ????????}?? ????}?? } 本章小结 分布式文件系统是大数据时代解决大规模数据存储问题的有效解决方案,HDFS开源实现了GFS,可以利用由廉价硬件构成的计算机集群实现海量数据的分布式存储 HDFS具有兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性等特点。但是,也要注意到,HDFS也有自身的局限性,比如不适合低延迟数据访问、无法高效存储大量小文件和不支持多用户写入及任意修改文件等 块是HDFS核心的概念,一个大的文件会被拆分成很多个块。HDFS采用抽象的块概念,具有支持大规模文件存储、简化系统设计、适合数据备份等优点 HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点和若干个数据节点。名称节点负责管理分布式文件系统的命名空间;数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取 HDFS采用了冗余数据存储,增强了数据可靠性,加快了数据传输速度。HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能。HDFS把硬件出错看作一种常态,设计了错误恢复机制 本章最后介绍了

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档