大数据导论-6.1.4-熟悉大数据处理技术——大数据的处理模式.pptxVIP

大数据导论-6.1.4-熟悉大数据处理技术——大数据的处理模式.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《大数据导论》;一、处理工作量;二、批处理模式;二、批处理模式——1. MapReduce批处理;MapReduce提供了以下的主要功能: 1)数据划分和计算任务调度 2)数据/代码互定位 3)系统优化 4)出错检测和恢复;执行步骤;MapReduce是面向大数据并行处理的计算模型、框架和平台。 它隐含了三层含义: ; 一次MapReduce处理引擎的运行被称为MapReduce作业,它由映射(Map)和归约(Reduce)两部分任务组成,这两部分任务又被分为多个阶段。 一个作业 = 映射 + 归约 其中映射任务被分为映射(map)、合并(combine)和分区(partition)三个阶段,合并阶段是可选的;归约任务被分为洗牌和排序(shuffle and sort)与归约(reduce)两个阶段。 映射= 映射 + 合并 + 分区 归约= 洗牌和排序 + 归约;(1)映射。MapReduce的第一个阶段称为映射。映射阶段首先把大的数据文件分割成多个小数据文件。每个较小的数据文件的每条记录都被解析为一组键-值对,通常键表示其对应记录的序号,值则表示该记录的实际值。;(2)合并。在MapReduce模型中,映射任务与归约任务分别在不同的节点上进行,而映射模块的输出需要被送到归约模块处理,这就要求把数据由映射任务节点传输到归约任务节点,这个过程往往会消耗大量的带宽,并直接导致处理延时。因此就要对大量的键-值对进行合并,以减少这些消耗。;(3)分区。在这个阶段,当使用多个归约模块时,MapReduce模型就需要把映射模块或合并模块(如果该MapReduce引擎指明调用合并功能)的输出分配给各个归约模块。在此我们把分配到每个归约模块的数据叫做一个分区,也就是说,分区数与归约模块数是相等的。图中描述了数据在分区阶段的变化。;(4)洗牌和排序。洗牌包括由分区模块将数据传输到归约模块的整个过程,是归约任务的第一个阶段。由分区模块传输来的数据可能存在多条记录对应同一个键。这个模块将把对应同一个键的记录进行组合,形成一个唯一键对应一组值的键-值对列表。随后该模块对所有的键-值对进行排序。组合与排序的方式在此可由用户自定义。;(5)归约。这是归约任务的最后一个阶段,该模块的逻辑由用户自定义,???可能对输入的记录进行进一步分析归纳,也可能对输入不作任何改变。在任何情形下,这个模块都在处理当条记录的同时将其他处理过的记录输出。;;MapReduce采用了“分治”的原则: (1)任务并行:任务并行指的是将一个任务分为多个子任务在不同节点上并行进行,通常并行的子任务采用不同的算法,每个子任务的输入数据可以相同也可不同,最后多个子任务的结果组成最终结果。 (2)数据并行:数据并行指的是将一个数据集分为多个子数据集在多个节点上并行地处理,数据并行的多个节点采用同一算法,最后多个子数据集的处理结果组成最终结果。;三、SCV原则;纠结之处;;通常MapReduce不适合大数据实时处理: 首先,MapReduce作业的建立与协调时间开销过大; 其次,MapReduce主要适用于批处理已经存储到磁盘上的数据,这与实时处理不同;最后MapReduce处理的数据是完整的,而非增量的,而实时处理的数据往往是不完整的,以数据流的方式不断传输到处理系统。 另外,MapReduce中的归约任务必须等待所有映射任务完成后再开始。首先,每个映射函数的输出被存储到每个映射任务节点。然后,映射函数的输出通过网络传播到归约任务节点,作为归约函数的输入,数据在网络中的传播将导致一定的时延。另外要注意归约节点之间不能相互直接通信,必须依靠映射节点传输数据,这是MapReduce的固定流程。;感谢聆听!

文档评论(0)

孙二娘 + 关注
实名认证
文档贡献者

专注文档领域

1亿VIP精品文档

相关文档