- 71
- 0
- 约3.61千字
- 约 19页
- 2022-05-26 发布于辽宁
- 举报
课程主讲人:
WordCount实例讲解
WordCount实例讲解
WordCount实例讲解
单元3.1
MapReduce简介与入门
1
MapReduce简介与入门
1
MapReduce简介与入门
MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统方法相比较,MapReduce更倾向于蛮力去解决问题,通过简单、粗暴、有效的方式去处理海量的数据。通过对数据的输入、拆分与组合(核心),将任务分配到多个节点服务器上,进行分布式计算,这样可以有效地提高数据管理的安全性,同时也能够很好地范围被管理的数据。
1
MapReduce简介与入门
MapReduce如何工作?
MapReduce算法包含两个重要任务,即Map和Reduce。Reduce任务始终在map作业之后执行。
(1)Map任务获取一组数据并将其转换为另一组数据,其中各个元素被分解为元组(键值对)。
(2)Reduce任务将Map的输出作为输入,并将这些数据元组(键值对)组合成一组较小的元组。
2
MapReduce计算架构
2
MapReduce计算架构
MapReduce的构成
MapReduce分为两部分,即map和reduce。其中map是入队(key,value),reduce则是聚合(计算),map过程的输出时reduce过程的输入。需要注意的是这里map中的ke
原创力文档

文档评论(0)