GFS与MapReduce的实现研究及其应用.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
GFS与MapReduce的实现研究及其应用 杨志丰 导师:李晓明 教授 2008-06-05 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 本文工作的出发点 The Google File System ACM SOSP 2003 被引用357 MapReduce: Simplified Data Processing on Large Clusters USENIX OSDI 2004 被引用224 动机 开源实现 Hadoop, KFS 支持天网组内工作的需要 大量数据:网页(以InfoMall网页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G, CWT200G, 中文网页分类评测测试集, 其他机构的数据(如TREC相关数据:terabyte track) 研究课题 搜索引擎平台 海量数据处理的基础设施 改进系统设计 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 系统结构 一个master,若干个chunkserver,若干个client 存储大文件(GB-TB) 一个文件由若干个定长块(chunk,64MB) 块是普通linux文件,有若干个复本(replica) GFS中的记录追加写操作 记录追加写 原子性(atomic) 多写者并发 Lease机制保证一致性 结果数据 成功:至少成功的在一个偏移处写入了一次;块末尾可能产生填充 失败:产生不一致和不完整的数据 TFS中的记录追加写操作 记录追加写 原子性 多写者并发 无需lease机制 变长块 写缓存与新块申请 结果 成功:数据被完整的写入一次,且各个复本一致 失败:数据没有被写入 实验设置 一台master,九台chunkserver Dell2850:2 Intel Xeon, 2GB内存,7200rpm SCSI硬盘6块组成一个软件RAID-0 客户端 2GB内存,其余同上 网络 所有机器通过1Gbps全双工以太网卡与一个1Gbps交换机连接 记录追加写的效率 一台客户机上启动不同个客户线程,网络上限125M 峰值95MB/s,达理论上限的75%(GFS为50%) 另一个实验中,多客户机多进程并发追加,总速率可达380MB/s 读操作的效率 峰值90MB/s,理论上限的72%(GFS为75%) 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 例子:词频统计 MapReduce运行流程 系统结构 系统的优化 忽略失败任务 连接输出结果为一个文件 Google实现中R具有双层含义:Reduce任务数;输出文件个数 TFS提供的concatFiles接口 串行版MapReduce 系统实时监控 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 本文贡献 提出了一个与GFS不同的设计方案,使得记录追加写的效率大大提升 设计和实现了一个稳定的分布式文件系统TFS,并已用于实际的研究工作 设计和实现了MapReduce分布式并行计算系统,并评测了它的性能 在我们的MapReduce系统基础上实现了各种搜索引擎系统常见的应用 总结了在分布式系统的设计和实现的实践中得到的一些宝贵的经验 未来工作 继续完善系统,提高系统性能,并根据用户反馈增加必要的新特性 构建一个海量数据处理的基础设施是我们研究小组的一个长期的目标,下一步是bigtable系统 为进一步简化程序员工作,在MapReduce的基础上设计和实现并行STL算法库 总结和研究MapReduce,MapReduceMerge,Dryad等模型的表达能力,探索新的模型 谢谢! 致谢 感谢我的导师李晓明教授三年来对我的教诲和研究工作论文工作的宝贵指导。李老师严谨的治学态度和高瞻远瞩的洞察力是我终身学习的楷模。 感谢闫宏飞老师大三时把我带入网络实验室这个大家庭,在实验室学习期间给予我工作学习的指导和对我各方面的能力的锻炼,以及对我本科毕业设计和毕业论文的关心和指导。 感谢彭波老师研究生期间对我研究工作的指导和各方面的关心和帮助。彭老师谦虚温和的态度总是让人如沐春风,清晰严谨的思路始终是我学习的榜样。 感谢北京大学网络实验室这个温暖的大家庭,从大三进入实验室实习起,我在这里度过了5年的岁月。实验室提供了如此好的环境和宽松的氛围,使我能专心致力于研究工作。感谢天网组的每位老师同学,组会上面红耳赤的学术争论,闲暇时轻松幽默的调侃,4楼小房间热火朝天的``封闭开发'',2007年夏回味无穷的威海之行,等等等等都将成为我生命中美好的回忆。 感谢TFS小组的各位成员:涂其琛,樊楷,陈日闪,朱磊,还有彭波老师,没有诸位的帮助和出色的工作,我的论文很

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档