- 1、本文档共81页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chap6数据计算讲述
第6章 数据计算;内容简介;目录;学习目的;数据计算对于数据科学是有重要影响的,主要体现在:
(1)数据战略规划的制定
(2)平台选择与设计
(3)算法选择和设计;目录;6.1计算模式的演变;6.1.1集中式计算;6.1.2分布式计算;6.1.3网格计算;6.1.4云计算;序号;目录;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2.1基本思想;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2主流计算框架——MapReduce;6.2.2实现过程;6.2主流计算框架——MapReduce;6.2.3主要特征;(2)map()函数与reduce()函数之间的数据处理
Shuffle处理
Combiner()函数
Partition()函数/分区函数
(3)key, value类型的输入/输出
;(4)容错机制的复杂性
Worker故障
Master故障
(5)数据存储位置的多样性
源文件:GFS
Map处理结果:本地存储
Reduce处理结果:GFS
日志:GFS;(6)任务粒度大小的重要性
在MapReduce中,通常把Map拆分成了M个片段、把Reduce拆分成R个片段执行。
(7)任务备份机制的必要性
有一些慢的节点(“落伍者”)会限制剩下程序的执行速度
“推测性的执行(Speculative execution)”的任务备份机制——当作业中大多数的任务都已经完成时,系统在几个空闲的节点上调度执行剩余任务的拷贝,并在多个Worker同时进行相同的剩余任务。
;6.2.4关键技术;(1)分区函数
;(2)Combiner()函数
一般采用Combiner()函数来降低map()函数与reduce()函数之间的数据传递量,进而提高MapReduce的处理速度。
reduce()函数的输出被保存在最终的输出文件里,而Combiner()函数的输出被写到中间文件里,然后被发送给Reduce任务。
;(3)跳过损坏记录
每个Worker进程都设置了信号处理函数捕获内存段异常(Segmentation Violation)和总线错误(Bus Error)。
当Master看到在处理某条特定记录不止失败一次时,Master就标志着条记录需要被跳过,并且在下次重新执行相关的Map或者Reduce任务的时候跳过这条记录。;(4)本地执行
为了简化调试、profile和小规模测试,出现了一套MapReduce库的本地实现版本。
(5)状态信息
Master使用嵌入式的HTTP服务器(如Jetty)显示一组状态信息页面,用户可以监控各种执行状态。
(6)计数器
MapReduce库使用计数器统计不同事件发生次数。;6.2.5下一代MapReduce;(1)扩展性差。
在MRv1 中,JobTracker 同时兼备了资源管理和作业控制两个功能,成为系统的一个最大瓶颈,严重制约了Hadoop 集群扩展性。
(2)可靠性差。
MRv1 采用了master/slave 结构,其中,master 存在单点故障问题,一旦出现故障将导致整个集群不可用。
(3)资源利用率低。
MRv1 采用了基于槽位的资源分配模型,槽位是一种粗粒度的资源划分单位,通常一个任务不会用完槽位对应的资源,且其他任务也无法使用这些空闲资源。
Map Slot 和Reduce Slot之间不允许共享,常常会导致一种槽位资源紧张而另外一种闲置
;(4)无法支持多种计算框架
人们提出了下一代MapReduce 计算框架——MRv2。由于MRv2 将资源管理功能抽象成了一个独立的通用系统YARN,直接导致下一代MapReduce 的核心从单一的计算框架MapReduce转移为通用的资源管理系统YARN,如图6-8所示。;6.2主流计算框架——MapReduce;下一代MapReduce 框架的基本设计思想是将JobTracker 的两个主要功能,即资源管理和作业控制(包括作业监控、容错等),分拆成两独立的进程,如图6-9 所示。;目录;6.3.1 数据流;6.3主流计算平台——Hadoop MapReduce
;6.3主流计算平台——Hadoop MapReduce
;Hadoop MapReduce数据流中需要特别注意以下几个特殊细节:
map任务将其输出写入本地硬盘,而非HDFS。
reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有Mapper的输出。
Combiner()函数。
;6.3.2任务处理;6.3主流计算平台——Hadoop MapReduce
;6.3.3技术实现;(1)失效处理
在Hadoop MapReduce中失效处理的方法如下:
T
您可能关注的文档
最近下载
- 基于SpringBoot的在线学习系统的设计与开发.doc
- 毕业设计(论文)-小型水稻联合收割机设计.doc
- 房地产 -22G101-1混凝土结构施工图平面整体表示方法制图规(现浇混凝土框架、剪力墙、梁、板).docx VIP
- 四方股份合作协议书(标准版).docx VIP
- ASME B16.9-2012_工厂制造的锻钢对焊管件(中文版).pdf
- 2025年汽车维修工技师(二级)职业技能鉴定考试题库资料(含答案).pdf
- 变压器油色谱、局放在线监测系统设计实施方案.docx VIP
- 饲料厂安全操作规程.pdf VIP
- 交通标识汇总(全).doc VIP
- 2025届湖北省建设投资集团有限公司校园招聘124人笔试参考题库附带答案详解.pdf
文档评论(0)