杨志丰-gfs与mapreduce的实现研究及其应用.pptxVIP

杨志丰-gfs与mapreduce的实现研究及其应用.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1GFS与MapReduce的实现研究及其应用杨志丰导师:李晓明教授2008-06-05

2大纲引言TFS分布式文件系统MapReduce分布式并行计算框架总结

引用次数来自GoogleScholar3TheGoogleFileSystemACMSOSP2003被引用357MapReduce:SimplifiedDataProcessingonLargeClustersUSENIXOSDI2004被引用224本文工作的出发点#2022

4动机Hadoop,KFS开源实现大量数据:网页(以InfoMall网页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G,CWT200G,中文网页分类评测测试集,其他机构的数据(如TREC相关数据:terabytetrack)支持天网组内工作的需要搜索引擎平台海量数据处理的基础设施改进系统设计研究课题

5引言TFS分布式文件系统MapReduce分布式并行计算框架总结大纲

6一个master,若干个chunkserver,若干个client存储大文件(GB-TB)一个文件由若干个定长块(chunk,64MB)块是普通linux文件,有若干个复本(replica)系统结构

7GFS中的记录追加写操作记录追加写原子性(atomic)多写者并发Lease机制保证一致性结果数据成功:至少成功的在一个偏移处写入了一次;块末尾可能产生填充失败:产生不一致和不完整的数据ClientMasterSecondaryReplicaAPrimaryReplicaSecondaryReplicaB

8TFS中的记录追加写操作01原子性多写者并发记录追加写02变长块写缓存与新块申请无需lease机制03成功:数据被完整的写入一次,且各个复本一致失败:数据没有被写入结果ClientReplicaCReplicaAReplicaBMaster

9实验设置Dell2850:2IntelXeon,2GB内存,7200rpmSCSI硬盘6块组成一个软件RAID-001一台master,九台chunkserver03所有机器通过1Gbps全双工以太网卡与一个1Gbps交换机连接网络022GB内存,其余同上客户端

10记录追加写的效率另一个实验中,多客户机多进程并发追加,总速率可达380MB/s峰值95MB/s,达理论上限的75%(GFS为50%)一台客户机上启动不同个客户线程,网络上限125M

11读操作的效率峰值90MB/s,理论上限的72%(GFS为75%)

12TFSShell

13

14引言TFS分布式文件系统MapReduce分布式并行计算框架总结大纲

15例子:词频统计中国人民美国人民中国人民银行美国银行中国,1人民,1美国,1人民,1中国,1人民,1银行,1美国,1银行,1中国,1中国,1银行,1银行,1美国,1美国,1人民,1人民,1人民,1中国,2银行,2美国,2人民,3mapshufflereduce

16MapReduce运行流程

17系统结构

18系统的优化忽略失败任务连接输出结果为一个文件Google实现中R具有双层含义:Reduce任务数;输出文件个数TFS提供的concatFiles接口串行版MapReduce系统实时监控

*融资项目商业计划书单击此处添加副标题

20引言TFS分布式文件系统MapReduce分布式并行计算框架总结大纲

21本文贡献提出了一个与GFS不同的设计方案,使得记录追加写的效率大大提升添加标题设计和实现了一个稳定的分布式文件系统TFS,并已用于实际的研究工作添加标题设计和实现了MapReduce分布式并行计算系统,并评测了它的性能添加标题添加标题在我们的MapReduce系统基础上实现了各种搜索引擎系统常见的应用添加标题总结了在分布式系统的设计和实现的实践中得到的一些宝贵的经验

22未来工作继续完善系统,提高系统性能,并根据用户反馈增加必要的新特性构建一个海量数据处理的基础设施是我们研究小组的一个长期的目标,下一步是bigtable系统为进一步简化程序员工作,在MapReduce的基础上设计和实现并行STL算法库总结和研究MapReduce,MapReduceMerge,Dryad等模型的表达能力,探索新的模型

23谢谢!

24感谢我的导师李晓明教授三年来对我的教诲和研究工作论文工作的宝贵指导。李老师严谨的治学态度和高瞻远瞩的洞察力是我终身学习的楷模。感谢闫宏飞老师大三时把我带入网络实验室这个大家庭,在实验室学习期间给予我工作学习的指导和对我各方面的能力的锻炼,以及对我本科毕业设计和毕业论文的关心和指导。感谢彭波老师研究生期间对我研究工作的指导和各方面

文档评论(0)

135****3907 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档