Hadoop大数据资料介绍.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce 2.0架构 * MapReduce 实现机制—推测执行 作业完成时间取决于最慢的任务完成时间 一个作业由若干个Map任务和Reduce任务构成 因硬件老化、软件Bug等,某些任务可能运行非常慢 推测执行机制 发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度 为拖后腿任务启动一个备份任务,同时运行 谁先运行完,则采用谁的结果 不建议启用推测执行机制的情况 任务间存在严重的负载倾斜 特殊任务,比如任务向数据库中写数据 * 大数据处理方案--hadoop 2 目 录 Hadoop1.x系统框架介绍 2.2 总 结 3 Hadoop生态系统介绍 2.2 Hadoop2.x系统框架介绍 2.2 Hadoop基本概念 2.1 背景介绍 1 * * Hadoop生态系统介绍 Hive:披着SQL外衣的MapReduce。Hive是为方便用户使用MapReduce而在外面包了一层SQL,由于Hive采用了SQL,它的问题域比MapReduce更窄,因为很多问题,SQL表达不出来,比如一些数据挖掘算法,推荐算法、图像识别算法等,这些仍只能通过编写MapReduce完成。 Pig:披着脚本语言外衣的MapReduce,为了突破Hive SQL表达能力的限制,采用了一种更具有表达能力的脚本语言PIG。由于pig语言强大的表达能力,Twitter甚至基于Pig实现了一个大规模机器学习平台。 Stinger Initiative(Tez optimized Hive):Hortonworks开源了一个DAG计算框架Tez,该框架可以像MapReduce一样,可以用来设计DAG应用程序,但需要注意的是,Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景,它通过减少数据读写IO,优化DAG流程使得Hive速度提供了很多倍。 * Hadoop生态系统介绍 Spark:为了提高MapReduce的计算效率,spark可看做基于内存的MapReduce实现,Spark基础上包了一层SQL,产生了一个新的类似Hive的系统Shark,但目前Spark和Shark尚属于实验室产品。 Storm/S4:Hadoop在实时计算/流式计算领域(MapReduce假设输入数据是静态的,处理过程中不能被修改,而流式计算则假设数据源是流动的,数据会源源不断流入系统)一直比较落后;还好,Twitter开源的Storm和yahoo!开源的S4弥补了这一缺点,Storm在淘宝,mediaV等公司得到广泛的应用。 Cloudera Impala/Apache drill:Google Dremel的开源实现,也许是因为交互式计算需求太过强烈,发展迅猛,impala仅用了一年左右便推出1.0GA版本。这种系统适用于交互式处理场景,最后产生的数据量一定要少。Impala尽管发布了1.0版本,但在容错性、扩展性、支持自定义函数等方面,有很长的路要走。 * 总结 3 目 录 Hadoop1.x系统框架介绍 2.2 大数据处理方案-hadoop 2 Hadoop2.x系统框架介绍 2.2 Hadoop基本概念 2.1 背景介绍 1 Hadoop生态系统介绍 2.2 * 总 结 Hadoop目前是使用最多的大数据处理方案,较之前的用于离线处理的Mapreduce框架,现在的storm框架已经解决了实时性的问题,同时对迭代计算等相当耗内存的数据处理方面,spark框架也弥补了这个方面的不足。国内的许多企业如百度,淘宝,华为等都在使用基于开源的hadoop源码的系统框架改造,华为更是作为apache贡献者之一。 小结: 离线计算框架:Mapreduce(Tez) 数据实时查询:Hbase 流式/实时计算框架:storm 数据仓库:Hive 内存计算框架:Spark 机器学习:Mahout * Thank you ! * 第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍

文档评论(0)

共享文档 + 关注
实名认证
内容提供者

二级建造师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年10月07日上传了二级建造师

1亿VIP精品文档

相关文档