HDFS文件系统-课程资源平台——计算机科学与技术学院.PPT

下载文档 降价啦

5
0
约1.54万字
约 106页
2018-11-03 发布于天津
举报
版权申诉
保障服务

HDFS文件系统-课程资源平台——计算机科学与技术学院.PPT

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

HDFS文件系统-课程资源平台——计算机科学与技术学院

HDFS基本概念块（Block） HDFS的文件被分成块进行存储 HDFS块的默认大小是128M 或64M 块是文件存储处理的逻辑单元 NameNode DataNode block的默认大小对比：Windows簇的大小 NTFS 默认是4KB 文件的分块存储一个文件有420M 2个文件，4个块，5个分片 NameNode NameNode是管理节点，存放文件元数据，包括： ① 文件与数据块的映射表 ② 数据块与数据节点的映射表 DataNode是存放数据块（Block）的节点 HDFS体系架构 HDFS数据管理与容错 HDFS读取文件的流程 HDFS写入文件的流程节点Map任务的个数节点Map任务的个数节点Map任务的个数在实际情况下，map任务的个数是受多个条件的制约，一般一个DataNode的map任务数量控制在10到100比较合适。节点Map任务的个数增加map个数，可增大mapred.map.tasks, 减少map个数，可增大mapred.min.split.size 如果要减少map个数，但有很多小文件，可将小文件合并成大文件，再使用准则2 本地优化——Combine 本地优化——Combine 本地优化——Combine 一个MapReduce作业中，以下三者数量总是相等的 Partitioner的数量 Reduce任务的数量最终输出文件（如：part-r-00000）在一个Reducer中，所有数据都会按照key值升序排序，故如果part输出文件中包含key值，则这个文件一定是有序的。 Reduce任务数量在大数据量的情况下，如果只设置1个Reduce任务，那么在Reduce阶段，整个集群只有该节点在运行Reduce任务，其他节点都将被闲置，效率十分低下，故建议将Reduce任务的数量设置成一个较大的值（最大值是72）。 Reduce任务数量总结：分片输入-Split 分片输入-Split 本地合并——Combine Hadoop分布式缓存背景：在执行MapReduce时，可能Mapper之间需要共享一些信息，如果信息量不大，可以将其从HDFS加载到内存中，这就是Hadoop分布式缓存机制分布式缓存机制举例 Wordcount修改：只统计单词列表中存在的单词在文档中的出现次数 Hadoop分布式缓存加载到内存发生在Job执行之前，每个从节点各自都缓存一份相同的共享数据。如果共享数据太大，可以将共享数据分批缓存，重复执行作业。分布式缓存实例——矩阵相乘矩阵在文件中的表示将右侧矩阵进行转置如何使用分布式缓存——第1步第2步在Mapper类或Reducer类的setup方法中，用输入流获取分布式缓存中的文件。 Hadoop 2.X YARN的设计减少了JobTracker的资源消耗，减少了Hadoop 1.0中发生单点故障的风险。我们还可以在YARN平台上运行Spark和Storm作业，充分利用资源。理想的输入文件 HDFS的特点数据冗余，硬件容错流式的数据访问存储大文件如果是大量的小文件，则NameNode的负载压力会很大适用性和局限性适用性和局限性适合一次写入多次读取，顺序读写不支持多用户并发写相同文件 21. setrep命令用法：hadoop fs -setrep [-R] path 改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。示例： hadoop fs -setrep -w 3 -R /user/hadoop/dir1 22. stat命令用法：hadoop fs -stat URI [URI …] 返回指定路径的统计信息。示例： hadoop fs -stat /user/hadoop/dir1 2014-09-14 09:51:24 23. tail命令用法：hadoop fs -tail [-f] URI 将文件尾部1K字节的内容输出到stdout。支持-f选项，行为和Unix中一致。示例： hadoop fs -tail /user/input.txt 24. test命令用法：hadoop fs -test -[ezd] URI 选项： -e 检查文件是否存在。如果存在则返回0。 -z 检查文件是否是0字节。如果是则返回0。 -d 如果路径是个目录，则返回1，否则返回0。示例： hadoop fs -test -e /usr/hadoop/file1 25. text命令用法：hadoop fs -text src 将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream 示例： hadoop fs