- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HDFS文件系统-课程资源平台——计算机科学与技术学院
HDFS基本概念 块(Block) HDFS的文件被分成块进行存储 HDFS块的默认大小是128M 或64M 块是文件存储处理的逻辑单元 NameNode DataNode block的默认大小 对比:Windows簇的大小 NTFS 默认是4KB 文件的分块存储 一个文件有420M 2个文件,4个块,5个分片 NameNode NameNode是管理节点,存放文件元数据,包括: ① 文件与数据块的映射表 ② 数据块与数据节点的映射表 DataNode是存放数据块(Block)的节点 HDFS体系架构 HDFS数据管理与容错 HDFS读取文件的流程 HDFS写入文件的流程 节点Map任务的个数 节点Map任务的个数 节点Map任务的个数 在实际情况下,map任务的个数是受多个条件的制约,一般一个DataNode的map任务数量控制在10到100比较合适。 节点Map任务的个数 增加map个数,可增大mapred.map.tasks, 减少map个数,可增大mapred.min.split.size 如果要减少map个数,但有很多小文件,可将小文件合并成大文件,再使用准则2 本地优化——Combine 本地优化——Combine 本地优化——Combine 一个MapReduce作业中,以下三者数量总是相等的 Partitioner的数量 Reduce任务的数量 最终输出文件(如:part-r-00000) 在一个Reducer中,所有数据都会按照key值升序排序,故如果part输出文件中包含key值,则这个文件一定是有序的。 Reduce任务数量 在大数据量的情况下,如果只设置1个Reduce任务,那么在Reduce阶段,整个集群只有该节点在运行Reduce任务,其他节点都将被闲置,效率十分低下,故建议将Reduce任务的数量设置成一个较大的值(最大值是72)。 Reduce任务数量 总结:分片输入-Split 分片输入-Split 本地合并——Combine Hadoop分布式缓存 背景:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS加载到内存中,这就是Hadoop分布式缓存机制 分布式缓存机制举例 Wordcount修改:只统计单词列表中存在的单词在文档中的出现次数 Hadoop分布式缓存 加载到内存发生在Job执行之前,每个从节点各自都缓存一份相同的共享数据。 如果共享数据太大,可以将共享数据分批缓存,重复执行作业。 分布式缓存实例——矩阵相乘 矩阵在文件中的表示 将右侧矩阵进行转置 如何使用分布式缓存——第1步 第2步 在Mapper类或Reducer类的setup方法中,用输入流获取分布式缓存中的文件。 Hadoop 2.X YARN的设计减少了JobTracker的资源消耗,减少了Hadoop 1.0中发生单点故障的风险。我们还可以在YARN平台上运行Spark和Storm作业,充分利用资源。 理想的输入文件 HDFS的特点 数据冗余,硬件容错 流式的数据访问 存储大文件 如果是大量的小文件,则NameNode的负载压力会很大 适用性和局限性 适用性和局限性 适合一次写入多次读取,顺序读写 不支持多用户并发写相同文件 21. setrep命令 用法:hadoop fs -setrep [-R] path 改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。 示例: hadoop fs -setrep -w 3 -R /user/hadoop/dir1 22. stat命令 用法:hadoop fs -stat URI [URI …] 返回指定路径的统计信息。 示例: hadoop fs -stat /user/hadoop/dir1 2014-09-14 09:51:24 23. tail命令 用法:hadoop fs -tail [-f] URI 将文件尾部1K字节的内容输出到stdout。支持-f选项,行为和Unix中一致。 示例: hadoop fs -tail /user/input.txt 24. test命令 用法:hadoop fs -test -[ezd] URI 选项: -e 检查文件是否存在。如果存在则返回0。 -z 检查文件是否是0字节。如果是则返回0。 -d 如果路径是个目录,则返回1,否则返回0。 示例: hadoop fs -test -e /usr/hadoop/file1 25. text命令 用法:hadoop fs -text src 将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream 示例: hadoop fs
您可能关注的文档
- 2012年春八年级英语期中检测卷.DOC
- 2013年自学考试织行为学.PPT
- 2014基层工会工作集萃-江阴总工会.DOC
- 2014版高三地理人教版全程复习课时作业人文地理第2讲以种植.DOC
- 2015年级精品资源共享课建设技术要求-8138质量工程.DOC
- 20160219-信息安全与数据通信系统及交互体验平台招标-淮阴工学院.DOC
- 2016化肥储备项目绩效自评报告-海南供销合作联社.DOC
- 2015年高考数学试题命制仍遵循的原则为.PPT
- 2016年上半年第十八届文明单位创建荣誉汇编名称2012015.DOC
- 2016年福建体育职业技术学院五年制大专运动训练专业单独招生文化.DOC
- 2025年无人机低空医疗物资投放社会效益报告.docx
- 2025年再生塑料行业包装回收利用产业链重构研究.docx
- 《AI眼镜周边产品市场机遇:2025年终端销售与需求增长洞察》.docx
- 2025年坚果加工行业深加工技术突破与市场拓展策略报告.docx
- 2025年通信芯片行业技术竞争与未来趋势报告.docx
- 《2025年生鲜电商配送冷链事故分析与预防措施》.docx
- 《商业航天融资新趋势2025民营卫星企业资本涌入估值分析市场动态》.docx
- 2025年能源绿色健康行业创新技术与市场应用报告.docx
- 2025年无人机低空医疗救援通信方案分析报告.docx
- 2025年烹饪机器人行业市场集中度分析报告.docx
最近下载
- 中国马克思主义与当代 2024版 教材课后思考题答案.docx
- 人工智能推动医学研究的创新突破.pptx VIP
- 玄隐遗密(含黄帝内经).pptx VIP
- 《社会调查研究与方法》期末复习考试题库(带答案).docx VIP
- 创业基础(暨南)中国大学MOOC慕课 章节测验期末考试答案(期末考试题目从章节测验中选出,题目没对上,可以在章节测验中查找).docx VIP
- 消防中级维保考试题库2000题.pdf
- 眼的解剖与生理.ppt VIP
- 上汽荣威R550维修手册1_描述与运作 ——原厂 2009 390 页 pdf.pdf VIP
- 学习华为:以客户为中心的营销体系.pptx VIP
- 家长会心得体会五年级简短9篇.docx VIP
原创力文档


文档评论(0)