5、spark实时计算.pptxVIP

下载本文档

16
0
约6.26千字
约 25页
2018-02-22 发布于北京
举报
版权申诉

5、spark实时计算.pptx

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

5、spark实时计算.pptx

Spark实时计算什么是SparkSpark是UC?Berkeley?AMP?lab所开源的类Hadoop?MapReduce的通用的并行计算框架，Spark基于map?reduce算法实现的分布式计算，拥有Hadoop?MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map?reduce的算法。Spark发展什么是Spark StreamingSpark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强这两个特点。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。另外 Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。在 Spark Streaming 中，处理数据的单位是一批而不是单条，而数据采集却是逐条进行的，因此 Spark Streaming 系统需要设置间隔使得数据汇总到一定的量后再一并操作，这个间隔就是批处理间隔。批处理间隔是 Spark Streaming 的核心概念和关键参数，它决定了 Spark Streaming 提交作业的频率和数据处理的延迟，同时也影响着数据处理的吞吐量和性能。Spark生态圈（1）Spark Core?– 用于通用分布式数据处理的引擎。它不不依赖于任何其他组件，可以运行在任何商用服务器集群上；Spark Sql?– 运行在Spark上的SQL查询语句，支持一系列SQL函数和HiveQL。但是还不是很成熟，所以不要在生产系统中使用；而HiveQL集成了需要的hive元数据和Hive相关的jar包；Spark Streaming?– 基于spark的微批处理引擎，支持各种各样数据源的导入。唯一依赖的是Spark Core引擎；MLib?– 构建在spark之上的机器学习库，支持一系列数据挖掘算法；GraphX-是一个分布式图处理框架；Spark生态圈（2）Spark、Hadoop执行说明Spark会代替Hadoop吗日常工作常用到的需求场景批处理、实时计算、机器学习Hadoop适合于离线的批量数据处理适用于对实时性要求极低的场景Storm 适合于实时流数据处理，实时性方面做得极好Spark 是内存分布式计算框架，试图吞并Hadoop的Map-Reduce批处理框架和Storm的流处理框架，但是Spark已经做得很不错了，批处理方面性能优于Map-Reduce，但是流处理目前还是弱于Storm，产品仍在改进之中参考：/w1014074794/article/detailspark运行方式单机（开发、测试）部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行； Spark On Local（本地运行） Spark On Local Cluster（本地伪分布）集群（测试、生产） Yarn Client（测试）：Driver在客户端本地运行，这种模式可以使得Spark Application和客户端进行交互 Yarn Cluster模式（生产）：Driver在集群运行，客户端提交完作业就可以撤离Spark核心概念-1(RDD)弹性分布数据集 Rdd是spark的灵魂，中文翻译弹性分布式数据集，一个rdd它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。rdd内部可以有许多分区(partitions)，每个分区又拥有大量的记录(records)；RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现；RDD特点它是在集群节点上的不可变的、已分区的集合对象；通过并行转换的方式来创建如（map, filter, join, etc）；失败自动重建；可以控制存储级别（内存、磁盘等）来进行重用；必须是可序列化的；Spark核心概念-2rdd的五个特征：Dependencies:建立RDD的依赖关系，主要rdd之间是宽窄依赖的关系，具有窄依赖关系的rdd可以在同一个stage中进行计算。partition：一个rdd会有若干个分区，分区的大小决定了对这个rdd计算的粒度，每个rdd的分区的计算都在一个单独的任务中进行。preferedlocations