Hadoop讲述.ppt

下载文档 降价啦

577
0
约9.14千字
约 45页
2017-03-04 发布于湖北
举报
版权申诉
保障服务

Hadoop讲述.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop讲述

MapReduce 2.0架构 MapReduce 实现机制—推测执行作业完成时间取决于最慢的任务完成时间一个作业由若干个Map任务和Reduce任务构成因硬件老化、软件Bug等，某些任务可能运行非常慢推测执行机制发现拖后腿的任务，比如某个任务运行速度远慢于任务平均速度为拖后腿任务启动一个备份任务，同时运行谁先运行完，则采用谁的结果不建议启用推测执行机制的情况任务间存在严重的负载倾斜特殊任务，比如任务向数据库中写数据大数据处理方案--hadoop 2 目录 Hadoop1.x系统框架介绍 2.2 总结 3 Hadoop生态系统介绍 2.2 Hadoop2.x系统框架介绍 2.2 Hadoop基本概念 2.1 背景介绍 1 Hadoop生态系统介绍 Hive：披着SQL外衣的MapReduce。Hive是为方便用户使用MapReduce而在外面包了一层SQL，由于Hive采用了SQL，它的问题域比MapReduce更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写MapReduce完成。 Pig：披着脚本语言外衣的MapReduce，为了突破Hive SQL表达能力的限制，采用了一种更具有表达能力的脚本语言PIG。由于pig语言强大的表达能力，Twitter甚至基于Pig实现了一个大规模机器学习平台。 Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，该框架可以像MapReduce一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。 Hadoop生态系统介绍 Spark：为了提高MapReduce的计算效率，spark可看做基于内存的MapReduce实现，Spark基础上包了一层SQL，产生了一个新的类似Hive的系统Shark，但目前Spark和Shark尚属于实验室产品。 Storm/S4：Hadoop在实时计算/流式计算领域（MapReduce假设输入数据是静态的，处理过程中不能被修改，而流式计算则假设数据源是流动的，数据会源源不断流入系统）一直比较落后；还好，Twitter开源的Storm和yahoo！开源的S4弥补了这一缺点，Storm在淘宝，mediaV等公司得到广泛的应用。 Cloudera Impala/Apache drill：Google Dremel的开源实现，也许是因为交互式计算需求太过强烈，发展迅猛，impala仅用了一年左右便推出1.0GA版本。这种系统适用于交互式处理场景，最后产生的数据量一定要少。Impala尽管发布了1.0版本，但在容错性、扩展性、支持自定义函数等方面，有很长的路要走。总结 3 目录 Hadoop1.x系统框架介绍 2.2 大数据处理方案-hadoop 2 Hadoop2.x系统框架介绍 2.2 Hadoop基本概念 2.1 背景介绍 1 Hadoop生态系统介绍 2.2 总结 Hadoop目前是使用最多的大数据处理方案，较之前的用于离线处理的Mapreduce框架，现在的storm框架已经解决了实时性的问题，同时对迭代计算等相当耗内存的数据处理方面，spark框架也弥补了这个方面的不足。国内的许多企业如百度，淘宝，华为等都在使用基于开源的hadoop源码的系统框架改造，华为更是作为apache贡献者之一。小结：离线计算框架：Mapreduce(Tez) 数据实时查询：Hbase 流式/实时计算框架：storm 数据仓库：Hive 内存计算框架：Spark 机器学习：Mahout Thank you ! 第一V是Variety，海量数据有不同格式，第一种是结构化，我们常见的数据，还有半结据化网页数据，还有非结构化视频音频数据。能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 第二点就是Volume，量比较大，我们有一些用户化每秒就要进入很多数据，很多客户内部都有几批数据，还有下面淘宝都是几PB数据，所以PB化将是比较常态的情况。非结构化数据的超大规模和增长，占总数据量的80~90%，比结构化数据增长快10倍到50倍，是传统数据仓库的10倍到50倍第三个是Velocity，因为数据化