- 5
- 0
- 约4.93千字
- 约 39页
- 2017-05-30 发布于北京
- 举报
GFS与MapReduce的实现研究及其应用 杨志丰 导师:李晓明 教授 2008-06-05 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 本文工作的出发点 The Google File System ACM SOSP 2003 被引用357 MapReduce: Simplified Data Processing on Large Clusters USENIX OSDI 2004 被引用224 动机 开源实现 Hadoop, KFS 支持天网组内工作的需要 大量数据:网页(以InfoMall网页库格式存储),搜索引擎日志,URL数据,CDAL元数据,NLP语料库、词典;网页索引数据,Web链接图;CWT100G, CWT200G, 中文网页分类评测测试集, 其他机构的数据(如TREC相关数据:terabyte track) 研究课题 搜索引擎平台 海量数据处理的基础设施 改进系统设计 大纲 引言 TFS分布式文件系统 MapReduce分布式并行计算框架 总结 系统结构 一个master,若干个chunkserver,若干个client 存储大文件(GB-TB) 一个文件由若干个定长块(chunk,64MB) 块是普通linux文件,有若干个复本(replica) GFS中的记录追加写操作 记录追加写 原子性(atomic) 多写者并发 L
您可能关注的文档
最近下载
- 第七章海洋中的混响资料.doc VIP
- 2025年长沙环境保护职业技术学院辅导员招聘考试笔试模拟试题及答案解析.docx VIP
- 《安规》题库及答案.pdf VIP
- GE巴纳OXYIQ氧量分析仪用户使用手册.PDF
- 三级减速器设计_毕业设计论文.doc VIP
- 生命周期评价方法(life cycle assessment,LCA).pdf
- 2025 八年级上册新文化运动与思想解放潮流课件.pptx
- 农药的使用(全套105页PPT课件).pptx VIP
- 2025版中华民族共同体概论课件第三讲文明初现与中华民族起源(史前时期)第四讲天下秩序与华夏共同体演进(夏商周时期).pptx VIP
- 人教版(2024)新教材七年级数学下册第9章平面直角坐标系中的面积问题【八大题型】(含答案).docx VIP
原创力文档

文档评论(0)