大数据技术与应用基础第4章HDFS基本应用.pptxVIP

下载本文档

6
0
约2.19千字
约 14页
2019-07-31 发布于辽宁
举报
版权申诉

大数据技术与应用基础第4章HDFS基本应用.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

能力 CAPACITY 要求了解什么是HDFS。理解HDFS的特征及作用。了解HDFS接口的分类。掌握数据流的基本原理和读写方法。实战Java接口实战命令行接口数据流简介一、计算机病毒的定义 HDFS提供多种方式由应用程序访问，本课学习通过命令行与HDFS交互，因为命令行是最简单的，同时也是大多数人最熟悉的。登录网页http://master ip地址:50070查看结果。之前已经配置好了，我们就直接通过命令基本文件系统操作进行演习。先将本地文件系统的一个文件复制到HDFS。此处以01_123_2_.txt为例，进行上传，命令如下： hadoop fs -put 01_123_2_.txt 01_123_2_.txt 接下来，我们介绍复制(cp)、移动(mv)、删除(rm)等几个操作。 (1)复制，命令如下： hadoop fs -cp /user/hadoop/01_123_2_.txt /user/root/01_123_2_.txt (2)删除，命令如下： hadoop fs -rm /user/hadoop/01_123_2_.txt (3)移动，命令如下： hadoop fs -mv /user/root/01_123_2_.txt /user/hadoop/01_123_2_.txt 实战命令行接口实战Java接口数据流简介二、实战Java接口环境配置 Hadoop环境 2.下载安装Eclipse。 sudo apt-get install eclipse 完成后打开，单击“File”，选择“New”，然后选择“JAVA Project”，新建一个JAVA Project。二、实战Java接口环境配置新增Libraries 选择user library；创建一个新的libraries命名为hadoop_hdfs；单击“Add ExternalJARs”把hadoop关于hdfs的包选中全部导入；单击“OK”按钮，完成新建Libraries；单击新建的JAVA project，右键“New”→“Class”，新建一个Class，命名为hadoop_text；下面，我们将以创建文件的示例作为测试，其代码如下…… 二、实战Java接口环境配置运行并在网页端查看测试结果。程序运行后，hadoop目录下出现123文件夹。实战命令行接口数据流简介实战Java接口三、数据流简介数据流简介当客户端写数据到HDFS文件中时，数据首先被写入本地文件中，假设HDFS文件的复制因子是3，当本地文件堆积到一块大小的数据，客户端从名字节点获得一个数据节点的列表，这个列表也包含存放数据块副本的数据节点。当客户端刷新数据块到第一个数据节点。第一个数据节点开始以4kb为单元接收数据，将每一小块都写到本地库中，同时将每一小块都传送到列表中的第二个数据节点。同理，第二个数据节点将小块数据写入本地库中同时传给第三个数据节点，第三个数据节点直接写到本地库中。一个数据节点在接前一个节点数据的同时，还可以将数据流水式传递给下一个节点。所以，数据是流水式地从一个数据节点传递到下一个。三、数据流简介数据流读取 1、客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。 2、DistributedFileSystem会通过RPC协议调用NameNode来确定请求文件块所在的位置。 3、以上完成时，客户端便会在这个输入流上调用read()函数。 4、DFSinputStream首先会连接文件第一个块最近的DataNode，再重复调用read()函数，直到这个块完全读完为止。三、数据流简介数据流读取 5、当第一个块读取完毕时，DFSInputStream会关闭连接，并查找存储下一个数据库距离客户端最近的DataNode。 6、客户端按照DFSInputStream打开和DataNode连接返回的数据流的顺序读取该块，它也会调用NameNode来检索下一组块所在的DataNode的位置信息。当完成所有文件的读取时，客户端则会在DFSInputStream中调用close()函数。三、数据流简介数据流写入（1）客户端通过调用DistributedFileSystem对象中的create()创建一个文件DistributedFileSystem通过RPC调用在NameNode的文件系统命名空间中创建一个新文件（2）NameNode会通过多种验证保证新的文件不存在文件系统中，并且确保请求客户端拥有创建文件的权限。（3）以上完成时，客户端便会在这个输入流上调用read()函数。三、数据流简介数据流写入（4）当客户端写入数据时，DFSOutputStream会