TDH大数据平台培训_第04讲_分布式计算框架.pdfVIP

TDH大数据平台培训_第04讲_分布式计算框架.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
TDH大数据平台培训_第04讲_分布式计算框架

分 布 式 计 算 框 架 范 颖 捷 | 2018.04 星 环 科 技 星 环 科 技 1 MapReduce 目录 CONTENTS 2 Spark 1 chapter MapReduce  简介  编程模型  任务管理与诊断 1.1 MapReduce简介 MapReduce  起源 • 2004年10月Google发表了MapReduce论文 • 设计初衷:解决搜索引擎中大规模网页数据的并行处理 •Hadoop MapReduce是Google MapReduce 的开源实现 •MapReduce是Apache Hadoop 的核心子项目  什么是MapReduce • 面向批处理的分布式计算框架 • 一种编程模型 • 一个MapReduce程序分为Map (映射)阶段和Reduce (化简)阶段  核心思想 • 分而治之,分布式计算 • 移动计算,而非移动数据 星 环 科 技 1.1 MapReduce简介 MapReduce  特点 • 计算跟着数据走 • 良好的扩展性:计算能力随着节点数增加,近似线性递增 • 高容错性 • 状态监控 • 适合于海量数据的离线批处理 • 降低了分布式编程的门槛 星 环 科 技 1.1 MapReduce简介 MapReduce  适用场景 • 数据统计,如网站的PV 、UV统计 • 搜索引擎构建索引 • 海量数据查询 • 复杂数据分析算法实现  不适用场景 • 实时计算 -能够在毫秒或秒级内返回结果 • 流计算 -输入数据集是静态的,不能动态变化 •DAG计算(有向无环图) -多个作业间存在依赖关系,后一个的输入是前一个的输出 星 环 科 技 1.2 MapReduce编程模型 MapReduce  示例:WordCount 星 环 科 技 1.2 MapReduce编程模型:基本概念 MapReduce  Job Task (作业和任务 ) • 作业是客户端请求执行的一个工作单元 -包括输入数据、MapReduce程序、配置信息 • 任务是将作业分解后得到的细分工作单元 -分为Map任务和Reduce任务  Split (切片 ) • 输入数据被划分成等长的小数据块,称为输入切

文档评论(0)

苏醒文档集 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档