SingleMapReduce单一输出HDFS文件的MapReduce编程模型.pdf

SingleMapReduce单一输出HDFS文件的MapReduce编程模型.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SingleMapReduce单一输出HDFS文件的MapReduce编程模型.pdf

华南理工大学学报(自然科学版) 第42卷第5期 JournalofSouthChina of V01.42NO.5 UniversityTechnology 2014年5月 Science (Natural 2014 Edition) May 编程模型米 陈吉荣 乐嘉锦 (东华大学计算机科学与技术学院,上海201620) 该模型通过拦截Job Successful状态,将输出目录下的所有文件“整合”为单一文件.文中 给出了HDFS的4个重要特征,提出了HDFS的“块典型分布”和“块非典型分布”的概 念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模 计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支 持了名称节点的扩展性. 关键词:分布式计算系统;元数据;MapReduce;Hadoop分布式文件系统;名称节点;数 据节点:块 中图分类号:TP311 经典MapReduce编程模型u。3o的执行流程可描 应用的计算效率.③对导人其他文件系统或数据库 J.采用 述为一个Map阶段和一个Reduce阶段,其中Map系统的大数据进入Hadoop带来一些影响_6 阶段由多个Mapper实现并行的Mapping,Reduce阶 段由多个Reducer实现并行的Reducing,输出文件布式文件系统(HDFS)中,会产生多个输出文件;如 数量与Reducer的数量相同.这种模型给Hadoop大果想产生单一输出文件,则只能采取串行的非Ma— 数据应用带来了如下主要问题:①编程模型不简 洁H。.通常情况下需要的是单一输出文件,而不是 一个包含多个输出文件的目录.例如,在单词频率统 了名称节点的扩展性M’7。….因为目前的Hadoop集 计、独立用户目标行为分析、网络日志文件处理和学 群是单个名称节点方式,而名称节点为了提高启动 生成绩的数据挖掘等应用中,用户需要的是单一输 后的响应速度,将所有的元数据导人内存.这种方式 出结果,而不是包含多个输出文件的目录.②限制了 使得名称节点支持的HDFS文件数量受限于名称节 对输出结果进行二次MapReduce计算的分片方点的内存大小. 式口。.目录的分片方式与单一文件的分片方式相 为解决上述问题,文献E4,9—10]中实现了一种单 比,后者会更加灵活、方便和高效,因为目录的分片 方式一般是一个分片对应一个文件,这种方式可能会 造成每个分片的大小不一致,进而影响MapReduce文件系统,故存在如下两个主要问题:①由于HDFS 收稿日期:2013—11—19 $基金项目:国家核高基专项(2010ZX01042—001—003) 万方数据 136 华南理工大学学报(自然科学版) 第42卷 被BlobSeer所代替,故不能支持其他构建于HDFS1.2 Consolidation算法的依据 之上的Hadoop存储系统(如HBase和OpenTSDB 等),也不能支持融合了MapReduce和传统数据库 操作的HadoopDB计算模型;②由于是多客户端的 的全部输出文件“整合”为一个文件.最直接的办法 并发Append操作,故该模型的MapReduce应

您可能关注的文档

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档