HDFS文件系统-课程资源平台——计算机科学与技术学院.PPT

HDFS文件系统-课程资源平台——计算机科学与技术学院.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFS文件系统-课程资源平台——计算机科学与技术学院

HDFS基本概念 块(Block) HDFS的文件被分成块进行存储 HDFS块的默认大小是128M 或64M 块是文件存储处理的逻辑单元 NameNode DataNode block的默认大小 对比:Windows簇的大小 NTFS 默认是4KB 文件的分块存储 一个文件有420M 2个文件,4个块,5个分片 NameNode NameNode是管理节点,存放文件元数据,包括: ① 文件与数据块的映射表 ② 数据块与数据节点的映射表 DataNode是存放数据块(Block)的节点 HDFS体系架构 HDFS数据管理与容错 HDFS读取文件的流程 HDFS写入文件的流程 节点Map任务的个数 节点Map任务的个数 节点Map任务的个数 在实际情况下,map任务的个数是受多个条件的制约,一般一个DataNode的map任务数量控制在10到100比较合适。 节点Map任务的个数 增加map个数,可增大mapred.map.tasks, 减少map个数,可增大mapred.min.split.size 如果要减少map个数,但有很多小文件,可将小文件合并成大文件,再使用准则2 本地优化——Combine 本地优化——Combine 本地优化——Combine 一个MapReduce作业中,以下三者数量总是相等的 Partitioner的数量 Reduce任务的数量 最终输出文件(如:part-r-00000) 在一个Reducer中,所有数据都会按照key值升序排序,故如果part输出文件中包含key值,则这个文件一定是有序的。 Reduce任务数量 在大数据量的情况下,如果只设置1个Reduce任务,那么在Reduce阶段,整个集群只有该节点在运行Reduce任务,其他节点都将被闲置,效率十分低下,故建议将Reduce任务的数量设置成一个较大的值(最大值是72)。 Reduce任务数量 总结:分片输入-Split 分片输入-Split 本地合并——Combine Hadoop分布式缓存 背景:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制 分布式缓存机制举例 Wordcount修改:只统计单词列表中存在的单词在文档中的出现次数 Hadoop分布式缓存 加载到内存发生在Job执行之前,每个从节点各自都缓存一份相同的共享数据。 如果共享数据太大,可以将共享数据分批缓存,重复执行作业。 分布式缓存实例——矩阵相乘 矩阵在文件中的表示 将右侧矩阵进行转置 如何使用分布式缓存——第1步 第2步 在Mapper类或Reducer类的setup方法中,用输入流获取分布式缓存中的文件。 Hadoop 2.X YARN的设计减少了JobTracker的资源消耗,减少了Hadoop 1.0中发生单点故障的风险。我们还可以在YARN平台上运行Spark和Storm作业,充分利用资源。 理想的输入文件 HDFS的特点 数据冗余,硬件容错 流式的数据访问 存储大文件 如果是大量的小文件,则NameNode的负载压力会很大 适用性和局限性 适用性和局限性 适合一次写入多次读取,顺序读写 不支持多用户并发写相同文件 21. setrep命令 用法:hadoop fs -setrep [-R] path 改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。 示例: hadoop fs -setrep -w 3 -R /user/hadoop/dir1 22. stat命令 用法:hadoop fs -stat URI [URI …] 返回指定路径的统计信息。 示例: hadoop fs -stat /user/hadoop/dir1 2014-09-14 09:51:24 23. tail命令 用法:hadoop fs -tail [-f] URI 将文件尾部1K字节的内容输出到stdout。支持-f选项,行为和Unix中一致。 示例: hadoop fs -tail /user/input.txt 24. test命令 用法:hadoop fs -test -[ezd] URI 选项: -e 检查文件是否存在。如果存在则返回0。 -z 检查文件是否是0字节。如果是则返回0。 -d 如果路径是个目录,则返回1,否则返回0。 示例: hadoop fs -test -e /usr/hadoop/file1 25. text命令 用法:hadoop fs -text src 将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream 示例: hadoop fs

文档评论(0)

sunhongz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档