Chap6数据计算讲述.pptx

下载文档 降价啦

2
0
约4.22千字
约 81页
2017-05-04 发布于湖北
举报
版权申诉
保障服务

Chap6数据计算讲述.pptx

1、本文档共81页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Chap6数据计算讲述

第6章数据计算;内容简介;目录;学习目的;数据计算对于数据科学是有重要影响的，主要体现在：（1）数据战略规划的制定（2）平台选择与设计（3）算法选择和设计;目录;6.1计算模式的演变;6.1.1集中式计算;6.1.2分布式计算;6.1.3网格计算;6.1.4云计算;序号;目录;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2.1基本思想;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2.2实现过程;6.2主流计算框架——MapReduce;6.2.3主要特征;（2）map（）函数与reduce（）函数之间的数据处理 Shuffle处理 Combiner（）函数 Partition（）函数/分区函数（3）key, value类型的输入/输出 ;（4）容错机制的复杂性 Worker故障 Master故障（5）数据存储位置的多样性源文件：GFS Map处理结果：本地存储 Reduce处理结果：GFS 日志：GFS;（6）任务粒度大小的重要性在MapReduce中，通常把Map拆分成了M个片段、把Reduce拆分成R个片段执行。（7）任务备份机制的必要性有一些慢的节点（“落伍者”）会限制剩下程序的执行速度 “推测性的执行（Speculative execution）”的任务备份机制——当作业中大多数的任务都已经完成时，系统在几个空闲的节点上调度执行剩余任务的拷贝，并在多个Worker同时进行相同的剩余任务。 ;6.2.4关键技术;（1）分区函数 ;（2）Combiner（）函数一般采用Combiner（）函数来降低map（）函数与reduce（）函数之间的数据传递量，进而提高MapReduce的处理速度。 reduce（）函数的输出被保存在最终的输出文件里，而Combiner（）函数的输出被写到中间文件里，然后被发送给Reduce任务。 ;（3）跳过损坏记录每个Worker进程都设置了信号处理函数捕获内存段异常（Segmentation Violation）和总线错误（Bus Error）。当Master看到在处理某条特定记录不止失败一次时，Master就标志着条记录需要被跳过，并且在下次重新执行相关的Map或者Reduce任务的时候跳过这条记录。;（4）本地执行为了简化调试、profile和小规模测试，出现了一套MapReduce库的本地实现版本。（5）状态信息 Master使用嵌入式的HTTP服务器（如Jetty）显示一组状态信息页面，用户可以监控各种执行状态。（6）计数器 MapReduce库使用计数器统计不同事件发生次数。;6.2.5下一代MapReduce;（1）扩展性差。在MRv1 中，JobTracker 同时兼备了资源管理和作业控制两个功能，成为系统的一个最大瓶颈，严重制约了Hadoop 集群扩展性。（2）可靠性差。 MRv1 采用了master/slave 结构，其中，master 存在单点故障问题，一旦出现故障将导致整个集群不可用。（3）资源利用率低。 MRv1 采用了基于槽位的资源分配模型，槽位是一种粗粒度的资源划分单位，通常一个任务不会用完槽位对应的资源，且其他任务也无法使用这些空闲资源。 Map Slot 和Reduce Slot之间不允许共享，常常会导致一种槽位资源紧张而另外一种闲置 ;（4）无法支持多种计算框架人们提出了下一代MapReduce 计算框架——MRv2。由于MRv2 将资源管理功能抽象成了一个独立的通用系统YARN，直接导致下一代MapReduce 的核心从单一的计算框架MapReduce转移为通用的资源管理系统YARN，如图6-8所示。;6.2主流计算框架——MapReduce;下一代MapReduce 框架的基本设计思想是将JobTracker 的两个主要功能，即资源管理和作业控制（包括作业监控、容错等），分拆成两独立的进程，如图6-9 所示。;目录;6.3.1 数据流;6.3主流计算平台——Hadoop MapReduce ;6.3主流计算平台——Hadoop MapReduce ;Hadoop MapReduce数据流中需要特别注意以下几个特殊细节： map任务将其输出写入本地硬盘，而非HDFS。 reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有Mapper的输出。 Combiner（）函数。 ;6.3.2任务处理;6.3主流计算平台——Hadoop MapReduce ;6.3.3技术实现;（1）失效处理在Hadoop MapReduce中失效处理的方法如下： T