网站大量收购独家精品文档,联系QQ:2885784924

5、spark实时计算.pptxVIP

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5、spark实时计算.pptx

Spark实时计算什么是SparkSpark是UC?Berkeley?AMP?lab所开源的类Hadoop?MapReduce的通用的并行计算框架,Spark基于map?reduce算法实现的分布式计算,拥有Hadoop?MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map?reduce的算法。Spark发展什么是Spark StreamingSpark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强这两个特点。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。另外 Spark Streaming 也能和 MLlib(机器学习)以及 Graphx 完美融合。在 Spark Streaming 中,处理数据的单位是一批而不是单条,而数据采集却是逐条进行的,因此 Spark Streaming 系统需要设置间隔使得数据汇总到一定的量后再一并操作,这个间隔就是批处理间隔。批处理间隔是 Spark Streaming 的核心概念和关键参数,它决定了 Spark Streaming 提交作业的频率和数据处理的延迟,同时也影响着数据处理的吞吐量和性能。Spark生态圈(1)Spark Core?– 用于通用分布式数据处理的引擎。它不不依赖于任何其他组件,可以运行在任何商用服务器集群上;Spark Sql?– 运行在Spark上的SQL查询语句,支持一系列SQL函数和HiveQL。但是还不是很成熟,所以不要在生产系统中使用;而HiveQL集成了需要的hive元数据和Hive相关的jar包;Spark Streaming?– 基于spark的微批处理引擎,支持各种各样数据源的导入。唯一依赖的是Spark Core引擎;MLib?– 构建在spark之上的机器学习库,支持一系列数据挖掘算法;GraphX-是一个分布式图处理框架;Spark生态圈(2)Spark、Hadoop执行说明Spark会代替Hadoop吗日常工作常用到的需求场景 批处理、实时计算、机器学习Hadoop适合于离线的批量数据处理适用于对实时性要求极低的场景Storm 适合于实时流数据处理,实时性方面做得极好Spark 是内存分布式计算框架,试图吞并Hadoop的Map-Reduce批处理框架和Storm的流处理框架,但是Spark已经做得很不错了,批处理方面性能优于Map-Reduce,但是流处理目前还是弱于Storm,产品仍在改进之中参考:/w1014074794/article/detailspark运行方式单机(开发、测试) 部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行; Spark On Local(本地运行) Spark On Local Cluster(本地伪分布)集群(测试、生产) Yarn Client(测试):Driver在客户端本地运行,这种模式可以使得Spark Application和客户端进行交互 Yarn Cluster模式(生产):Driver在集群运行,客户端提交完作业就可以撤离Spark核心概念-1(RDD)弹性分布数据集 Rdd是spark的灵魂,中文翻译弹性分布式数据集,一个rdd它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。rdd内部可以有许多分区(partitions),每个分区又拥有大量的记录(records);RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现;RDD特点它是在集群节点上的不可变的、已分区的集合对象;通过并行转换的方式来创建如(map, filter, join, etc);失败自动重建;可以控制存储级别(内存、磁盘等)来进行重用;必须是可序列化的;Spark核心概念-2rdd的五个特征:Dependencies:建立RDD的依赖关系,主要rdd之间是宽窄依赖的关系,具有窄依赖关系的rdd可以在同一个stage中进行计算。partition:一个rdd会有若干个分区,分区的大小决定了对这个rdd计算的粒度,每个rdd的分区的计算都在一个单独的任务中进行。preferedlocations

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档