GFS与MapReduce的实现研究及其应用.pptVIP

  • 5
  • 0
  • 约4.93千字
  • 约 39页
  • 2017-05-30 发布于北京
  • 举报
GFS与MapReduce的实现研究及其应用 杨志丰 导师:李晓明 教授 2008-06-05 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 本文工作的出发点 The Google File System ACM SOSP 2003 被引用357 MapReduce: Simplified Data Processing on Large Clusters USENIX OSDI 2004 被引用224 动机 开源实现 Hadoop, KFS 支持天网组内工作的需要 大量数据:网页(以InfoMall网页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G, CWT200G, 中文网页分类评测测试集, 其他机构的数据(如TREC相关数据:terabyte track) 研究课题 搜索引擎平台 海量数据处理的基础设施 改进系统设计 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 系统结构 一个master,若干个chunkserver,若干个client 存储大文件(GB-TB) 一个文件由若干个定长块(chunk,64MB) 块是普通linux文件,有若干个复本(replica) GFS中的记录追加写操作 记录追加写 原子性(atomic) 多写者并发 L

文档评论(0)

1亿VIP精品文档

相关文档