SingleMapReduce单一输出HDFS文件的MapReduce编程模型.pdf

下载文档

5
0
约2.5万字
约 9页
2015-09-19 发布于湖北
举报
版权申诉
保障服务

SingleMapReduce单一输出HDFS文件的MapReduce编程模型.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

华南理工大学学报(自然科学版) 第42卷第5期 JournalofSouthChina of V01．42NO．5 UniversityTechnology 2014年5月 Science (Natural 2014 Edition) May 编程模型米陈吉荣乐嘉锦 (东华大学计算机科学与技术学院，上海201620) 该模型通过拦截Job Successful状态，将输出目录下的所有文件“整合”为单一文件．文中给出了HDFS的4个重要特征，提出了HDFS的“块典型分布”和“块非典型分布”的概念，设计了一种通过整合元数据来达到整合文件的算法．理论分析和实验结果表明：该模计算的输出结果进行分片，并可用并行方式导入大表或大文件到HDFS中；该模型间接支持了名称节点的扩展性．关键词：分布式计算系统；元数据；MapReduce；Hadoop分布式文件系统；名称节点；数据节点：块中图分类号：TP311 经典MapReduce编程模型u。3o的执行流程可描应用的计算效率．③对导人其他文件系统或数据库 J．采用述为一个Map阶段和一个Reduce阶段，其中Map系统的大数据进入Hadoop带来一些影响_6 阶段由多个Mapper实现并行的Mapping，Reduce阶段由多个Reducer实现并行的Reducing，输出文件布式文件系统(HDFS)中，会产生多个输出文件；如数量与Reducer的数量相同．这种模型给Hadoop大果想产生单一输出文件，则只能采取串行的非Ma— 数据应用带来了如下主要问题：①编程模型不简洁H。．通常情况下需要的是单一输出文件，而不是一个包含多个输出文件的目录．例如，在单词频率统了名称节点的扩展性M’7。…．因为目前的Hadoop集计、独立用户目标行为分析、网络日志文件处理和学群是单个名称节点方式，而名称节点为了提高启动生成绩的数据挖掘等应用中，用户需要的是单一输后的响应速度，将所有的元数据导人内存．这种方式出结果，而不是包含多个输出文件的目录．②限制了使得名称节点支持的HDFS文件数量受限于名称节对输出结果进行二次MapReduce计算的分片方点的内存大小．式口。．目录的分片方式与单一文件的分片方式相为解决上述问题，文献E4，9—10]中实现了一种单比，后者会更加灵活、方便和高效，因为目录的分片方式一般是一个分片对应一个文件，这种方式可能会造成每个分片的大小不一致，进而影响MapReduce文件系统，故存在如下两个主要问题：①由于HDFS 收稿日期：2013—11—19 $基金项目：国家核高基专项(2010ZX01042—001—003) 万方数据 136 华南理工大学学报(自然科学版) 第42卷被BlobSeer所代替，故不能支持其他构建于HDFS1．2 Consolidation算法的依据之上的Hadoop存储系统(如HBase和OpenTSDB 等)，也不能支持融合了MapReduce和传统数据库操作的HadoopDB计算模型；②由于是多客户端的的全部输出文件“整合”为一个文件．最直接的办法并发Append操作，故该模型的MapReduce应