12-第十二章Hadoop实时数据处理技术重点.ppt

下载文档 降价啦

9
0
约 16页
2017-03-19 发布于湖北
举报
版权申诉
保障服务

12-第十二章Hadoop实时数据处理技术重点.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十二章 Hadoop实时数据处理技术学习目标 ·了解 Hadoop 实时处理技术的进展? ·了解 Storm 实时处理技术? ·了解 Storm-Yarn 实时处理技术? ·了解 Spark 实时处理技术 1. Hadoop 实时处理技术的进展 1. 过去十年Hadoop、Map/Reduce 等相关技术实现了针对大量数据的分布式存储和处理操作，极大地提高了处理效率，并降低了传统技术的处理成本 2. 近几年，互联网中的数据增长速度出现了前所未有的突破，数据量越来越大，数据的价值却呈现出昙花一现，若不及时对其进行处理，很容易被海量的数据集弱化，Hadoop 和 Map/Reduce在处理效率和响应速度上都不能满足数据实时处理的要求，所以Storm应运而生。 2. Storm ·什么是Storm Storm 起源于 Twitter，后来贡献给 Apache 自由软件基金会，这是一个分布式的、容错的实时计算系统，它被托管在GitHub上。 Storm 简化了传统方法对无边界流式数据的处理过程，可以对数据进行实时分析、在线机器学习、持续计算、数据仓库技术以及可以简化分布式 RPC 的处理过程等。 · Apache Storm 组成结构类似于map/reduce中的Namenode和Datanode. · Storm数据流流在Storm内各组件之间的传输形式是一系列元组（tuple）序列 Storm集群中各组成成分或角色的功能描述 3. Storm-YARN ·什么是Storm-YARN 基于 Storm 优点，同时基于 Hadoop 分布式平台的通用性，Yahoo！实现了可以部署在 Hadoop 平台上的 Storm——Storm-YARN。 3. Storm-YARN ·Storm-YARN的优点（1）Storm利用YARN功能具有很强的弹性支持，增加或释放系统资源，自动获取Hadoop上其他批处理应用的未使用的空闲资源，使用完成后释放或中途归还给Hadoop批处理应用，提高了整个集群的资源利用率。（2）实现应用迁移、数据共享的大数据技术处理要求 3. Storm-YARN ·Storm-YARN功能介绍 Storm-YARN与Apache Storm中的各个组件功能基本一致，只是将Apache Storm中的各组件角色进行了明确分离，以使其同YARN有效结合。 4. Apache Spark · 什么是Apache Spark Spark是在Hadoop分布式平台进行很好集成且功能很强大的一种开源实现的实时数据处理技术。 · Saprk与Map/reduce Spark与Hadoop Map/Reduce的区别在于Map/Reduce主要是基于两阶段访问磁盘数据的批处理计算，Spark是基于内存的实时计算。 4. Apache Spark · Apache Spark的组成结构注意：（1）每个应用程序拥有自己的运行空间Executor （2）Spark应用独立于底层集群资源管理器（Cluster Manager），并不受限于某一Cluster Manager （3）SparkContext可以根据数据在集群中各Worker Node的分布情况，向集群资源管理器所申请的Executor尽量与数据位于相同的节点 4. Apache Spark · Apache Spark的扩展功能可以将Spark SQL、MLlib、GraphX、Spark Streaming等功能完全无缝集成在同一个Spark应用中，提高相应应用程序的处理功能 4. Spark与Storm 共同点：（1）开源的分布式集群计算框架。（2）基于内存的高效实时数据处理功能，处理过程中途无磁盘访问操作。（3）集群资源可扩展性好，数据容错性高。（4）相对于Hadoop MapReduce批处理模型，两者在处理数据方面都具有低延迟性。（5）两者都提供了丰富的Java、Python上层API。（6）目前两者都对Hadoop分布式存储平台提供了良好支持。 4. Spark与Storm 不同点：（1）Storm是专门针对大量数据进行实时处理的一个框架，数据在Storm框架内是一个个连续不断事件流从其中一个组件流向另一个组件；Spark拥有丰富的数据处理扩展功能（2）Storm集群没有专门的文件系统支持，可以直接部署在一般通用文件系统上。Spark集群一般需要专门的分布式文件系统支持。（3）Storm处理结果可以不用保存在磁盘中，因此，其处理数据的效率一般可以达到秒内的延迟。而Spark集群间管理和传输数据的方式仍是将数据事先分成很多块发送到相应处理节点，其处理效率有几秒的延迟。 The