大数据技术与应用基础第4章HDFS基本应用.pptxVIP

大数据技术与应用基础第4章HDFS基本应用.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
能力 CAPACITY 要求 了解什么是HDFS。 理解HDFS的特征及作用。 了解HDFS接口的分类。 掌握数据流的基本原理和读写方法。 实战Java接口 实战命令行接口 数据流简介 一、计算机病毒的定义 HDFS提供多种方式由应用程序访问,本课学习通过命令行与HDFS交互,因为命令行是最简单的,同时也是大多数人最熟悉的。 登录网页http://master ip地址:50070查看结果。 之前已经配置好了,我们就直接通过命令基本文件系统操作进行演习。 先将本地文件系统的一个文件复制到HDFS。 此处以01_123_2_.txt为例,进行上传,命令如下: hadoop fs -put 01_123_2_.txt 01_123_2_.txt 接下来,我们介绍复制(cp)、移动(mv)、删除(rm)等几个操作。 (1)复制,命令如下: hadoop fs -cp /user/hadoop/01_123_2_.txt /user/root/01_123_2_.txt (2)删除,命令如下: hadoop fs -rm /user/hadoop/01_123_2_.txt (3)移动,命令如下: hadoop fs -mv /user/root/01_123_2_.txt /user/hadoop/01_123_2_.txt 实战命令行接口 实战Java接口 数据流简介 二、实战Java接口 环境配置 Hadoop环境 2.下载安装Eclipse。 sudo apt-get install eclipse 完成后打开,单击“File”,选择“New”,然后选择“JAVA Project”,新建一个JAVA Project。 二、实战Java接口 环境配置 新增Libraries 选择user library; 创建一个新的libraries命名为hadoop_hdfs; 单击“Add ExternalJARs”把hadoop关于hdfs的包选中全部导入; 单击“OK”按钮,完成新建Libraries; 单击新建的JAVA project,右键“New”→“Class”,新建一个Class,命名为hadoop_text; 下面,我们将以创建文件的示例作为测试,其代码如下…… 二、实战Java接口 环境配置 运行并在网页端查看测试结果。 程序运行后,hadoop目录下出现123文件夹。 实战命令行接口 数据流简介 实战Java接口 三、数据流简介 数据流简介 当客户端写数据到HDFS文件中时,数据首先被写入本地文件中,假设HDFS文件的复制因子是3,当本地文件堆积到一块大小的数据,客户端从名字节点获得一个数据节点的列表,这个列表也包含存放数据块副本的数据节点。当客户端刷新数据块到第一个数据节点。第一个数据节点开始以4kb为单元接收数据,将每一小块都写到本地库中,同时将每一小块都传送到列表中的第二个数据节点。同理,第二个数据节点将小块数据写入本地库中同时传给第三个数据节点,第三个数据节点直接写到本地库中。一个数据节点在接前一个节点数据的同时,还可以将数据流水式传递给下一个节点。所以,数据是流水式地从一个数据节点传递到下一个。 三、数据流简介 数据流读取 1、客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。 2、DistributedFileSystem会通过RPC协议调用NameNode来确定请求文件块所在的位置。 3、以上完成时,客户端便会在这个输入流上调用read()函数。 4、DFSinputStream首先会连接文件第一个块最近的DataNode,再重复调用read()函数,直到这个块完全读完为止。 三、数据流简介 数据流读取 5、当第一个块读取完毕时,DFSInputStream会关闭连接,并查找存储下一个数据库距离客户端最近的DataNode。 6、客户端按照DFSInputStream打开和DataNode连接返回的数据流的顺序读取该块,它也会调用NameNode来检索下一组块所在的DataNode的位置信息。当完成所有文件的读取时,客户端则会在DFSInputStream中调用close()函数。 三、数据流简介 数据流写入 (1)客户端通过调用DistributedFileSystem对象中的create()创建一个文件DistributedFileSystem通过RPC调用在NameNode的文件系统命名空间中创建一个新文件 (2)NameNode会通过多种验证保证新的文件不存在文件系统中,并且确保请求客户端拥有创建文件的权限。 (3)以上完成时,客户端便会在这个输入流上调用read()函数。 三、数据流简介 数据流写入 (4)当客户端写入数据时,DFSOutputStream会

文档评论(0)

132****9295 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档