MapReduce:超大机群上的简单数据处理
?
????????????????????????????????????????? 摘要
MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.
以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机群上的调度,机器的错误处理,管理机器之间必要的通信.这样就可以让那些没有并行分布式处理系统经验的程序员利用大量分布式系统的资源.
我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的机群上,一个典型的MapReduce计算处理几千台机器上的以TB计算的数据.程序员发现这个系统非常好用:已经实现了数以百计的MapReduce程序,每天在Google的机群上都有1000多个MapReduce程序在执行.
1.介绍
在过去的5年里,作者和Google的许多人已经实现了数以百计的为专门目的而写的计算来处理大量的原始数据,比如,爬行的文档,Web请求日志,等等.为了计算各种类型的派生数据,比如,倒排索引,Web文档的图结构的各种表示,每个主机上爬行的页面数
您可能关注的文档
最近下载
- 2025年演出经纪人渠道合作伙伴(票务_场地)调研专题试卷及解析.pdf VIP
- 2025年信息系统安全专家EnCase取证软件综合应用专题试卷及解析.pdf VIP
- 新概念英语二课后单词含短语.docx VIP
- 2025年人力资源管理师心理测验中的隐私保护专题试卷及解析.pdf VIP
- 2025年江西省中考说明语文考试大纲 .pdf VIP
- 2025年房地产经纪人客户开发失败案例复盘与教训总结专题试卷及解析.pdf VIP
- 城市智慧交通路侧单元(RSU)部署优化方案.pdf VIP
- 计算机飞行计划(cfpl)培训教程.ppt VIP
- 城市轨道 城市轨道交通供电系统的防雷与接地.doc VIP
- ABBACS510变频器参数设置.pdf VIP
原创力文档

文档评论(0)