网站大量收购独家精品文档,联系QQ:2885784924

Chap6数据计算讲述.pptx

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chap6数据计算讲述

第6章 数据计算;内容简介;目录;学习目的;数据计算对于数据科学是有重要影响的,主要体现在: (1)数据战略规划的制定 (2)平台选择与设计 (3)算法选择和设计;目录;6.1计算模式的演变;6.1.1集中式计算;6.1.2分布式计算;6.1.3网格计算;6.1.4云计算;序号;目录;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2.1基本思想;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2.2实现过程;6.2主流计算框架——MapReduce;6.2.3主要特征;(2)map()函数与reduce()函数之间的数据处理 Shuffle处理 Combiner()函数 Partition()函数/分区函数 (3)key, value类型的输入/输出 ;(4)容错机制的复杂性 Worker故障 Master故障 (5)数据存储位置的多样性 源文件:GFS Map处理结果:本地存储 Reduce处理结果:GFS 日志:GFS;(6)任务粒度大小的重要性 在MapReduce中,通常把Map拆分成了M个片段、把Reduce拆分成R个片段执行。 (7)任务备份机制的必要性 有一些慢的节点(“落伍者”)会限制剩下程序的执行速度 “推测性的执行(Speculative execution)”的任务备份机制——当作业中大多数的任务都已经完成时,系统在几个空闲的节点上调度执行剩余任务的拷贝,并在多个Worker同时进行相同的剩余任务。 ;6.2.4关键技术;(1)分区函数 ;(2)Combiner()函数 一般采用Combiner()函数来降低map()函数与reduce()函数之间的数据传递量,进而提高MapReduce的处理速度。 reduce()函数的输出被保存在最终的输出文件里,而Combiner()函数的输出被写到中间文件里,然后被发送给Reduce任务。 ;(3)跳过损坏记录 每个Worker进程都设置了信号处理函数捕获内存段异常(Segmentation Violation)和总线错误(Bus Error)。 当Master看到在处理某条特定记录不止失败一次时,Master就标志着条记录需要被跳过,并且在下次重新执行相关的Map或者Reduce任务的时候跳过这条记录。;(4)本地执行 为了简化调试、profile和小规模测试,出现了一套MapReduce库的本地实现版本。 (5)状态信息 Master使用嵌入式的HTTP服务器(如Jetty)显示一组状态信息页面,用户可以监控各种执行状态。 (6)计数器 MapReduce库使用计数器统计不同事件发生次数。;6.2.5下一代MapReduce;(1)扩展性差。 在MRv1 中,JobTracker 同时兼备了资源管理和作业控制两个功能,成为系统的一个最大瓶颈,严重制约了Hadoop 集群扩展性。 (2)可靠性差。 MRv1 采用了master/slave 结构,其中,master 存在单点故障问题,一旦出现故障将导致整个集群不可用。 (3)资源利用率低。 MRv1 采用了基于槽位的资源分配模型,槽位是一种粗粒度的资源划分单位,通常一个任务不会用完槽位对应的资源,且其他任务也无法使用这些空闲资源。 Map Slot 和Reduce Slot之间不允许共享,常常会导致一种槽位资源紧张而另外一种闲置 ;(4)无法支持多种计算框架 人们提出了下一代MapReduce 计算框架——MRv2。由于MRv2 将资源管理功能抽象成了一个独立的通用系统YARN,直接导致下一代MapReduce 的核心从单一的计算框架MapReduce转移为通用的资源管理系统YARN,如图6-8所示。;6.2主流计算框架——MapReduce;下一代MapReduce 框架的基本设计思想是将JobTracker 的两个主要功能,即资源管理和作业控制(包括作业监控、容错等),分拆成两独立的进程,如图6-9 所示。;目录;6.3.1 数据流;6.3主流计算平台——Hadoop MapReduce ;6.3主流计算平台——Hadoop MapReduce ;Hadoop MapReduce数据流中需要特别注意以下几个特殊细节: map任务将其输出写入本地硬盘,而非HDFS。 reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有Mapper的输出。 Combiner()函数。 ;6.3.2任务处理;6.3主流计算平台——Hadoop MapReduce ;6.3.3技术实现;(1)失效处理 在Hadoop MapReduce中失效处理的方法如下: T

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档