《大数据技术与应用》第5章 大数据计算.pptxVIP

  • 4
  • 0
  • 约1.04万字
  • 约 69页
  • 2023-05-16 发布于广东
  • 举报

《大数据技术与应用》第5章 大数据计算.pptx

第五章 大数据计算 大数据计算01目 录CONTENTS02大数据计算平台 大数据计算01PART 大数据计算在海量的数据中搜索有用的信息;在全球几十亿的移动互联网设备中找到特定的设备群使得这些设备的用户具有类似的行为属性;从几万个监控传感器的实时数据中找到对设备进行改进的方法;…… 我们要关注的是在这些实际应用问题解决过程中使用大数据算法时遇到的共性问题,称为计算模型。大数据处理的问题复杂多样,单一的计算模式无法满足不同类型的计算需求,MapReduce只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有查询分析计算、图计算、流计算等多种大数据计算模式。 批处理计算批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。MapReduce是最具有代表性和影响力的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集(大于1TB)的并行运算。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数Map和Reduce上,编程人员在不会分布式并行编程的情况下,也可以很容易地将自己的程序运行在分布式系统上,完成海量数据集的计算。批处理计算的实例较为著名的还有Spark。Spark使用内存替代HDFS或本地磁盘来存储中间结果,因此要比MapReduce的速度快许多。 MapReduce概述MapReduce工作流程 在MapReduce中,一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的小数据块,这些小数据块可以被多个Map任务并行处理。MapReduce框架会为每个Map任务输入一个数据子集,Map任务生成的结果会继续作为Reduce任务的输入,最终由Reduce任务输出最后结果,并写入分布式文件系统。 Map和Reduce Map函数将输入的元素转换成key,value形式的键值对,键和值的类型也是任意的,其中键不同于一般的标志属性,即键没有唯一性,不能作为输出的身份标识,即使是同一输入元素,也可通过一个Map任务生成具有相同键的多个key,value。 Reduce函数的任务就是将输入的一系列具有相同键的键值对以某种方式组合起来,输出处理后的键值对,输出结果会合并成一个文件。对于处理键为k的Reduce任务的输入形式为k,v1,v2,……,vn,输出为k,V。 Map函数和Reduce函数都是以key,value键值对作为输入,按一定的映射规则转换成另一个或一批key,value进行输出 MapReduce工作流程 MapReduce工作流程InputFormat模块做预处理;输入文件切分为逻辑上的多个InputSplitRecordReader(RR)处理InputSplit中的具体记录,加载数据并转换为适合Map任务读取的键值对Map任务根据用户自定义的映射规则,输出一系列的key,value键值对对Map的输出分区(Portition)、排序(Sort)、合并(Combine)、归并(Merge),得到key,value-list中间结果,这个过程称为ShuffleReduce以一系列key,value-list中间结果为输入,执行用户定义的逻辑,输出结果给OutputFormat模块OutputFormat模块验证输出目录是否已经存在以及输出结果类型是否符合配置文件中的配置类型,如果都满足,输出Reduce的结果到分布式文件系统 MapReduce工作流程Shuffle过程是MapReduce整个工作流程的核心环节,理解Shuffle过程的基本原理,对于理解MapReduce流程至关重要。所谓Shuffle,是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。Shuffle过程可分为Map端的操作和Reduce端的操作。Shuffle过程 MapReduce工作流程Map端的Shuffle过程具体包括4个步骤:(A) 输入数据和执行Map任务Map任务接受key,value键值对作为输入后,按一定的映射规则转换成一批key,value进行输出。(B) 写入缓存Map的输出结果首先写入缓存。积累一定数量的Map输出结果以后,一次性批量写入磁盘。(C) 溢写(分区、排序和合并)首先把缓存中的数据进行分区,然后对每个分区的数据进行排序和合并,之后再写入磁盘文件。(D) 文件归并具有相同key的键值对被归并成一个新的键值对。具体而言,对于若干个具有相同key的键值对k1,v1,k1,v2……k1,vn会被归并成—个新的键值对k1,v1,v2,……,vn。Shuffle过程 MapReduce工作流程 相对于Map端而言,Reduce端的Sh

文档评论(0)

1亿VIP精品文档

相关文档