第5讲Spark_88703337技巧.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析与内存计算 第五讲 Spark ;Spark动机;Spark优点;SPARK vs hadoop ;Spark优点;Spark快的理由;从实例开始, 漫游Spark内核;Spark和MapReduce比较;Spark生态圈;Spark框架;Spark框架优势;目录结构;目录结构;资源管理与作业调度;Spark启动模式;Yarn;Yarn - 一种分层的集群框架方法;Yarn;Yarn;Mesos;Mesos;Mesos;Mesos vs Yarn;Mesos vs Yarn;Spark主要内容;Scala;Scala;Scala def函数;Quick Tour;Scala;Scala;Scala;Quick Tour;Processing collections with functional programming: val list = List(1, 2, 3) list.foreach(x = println(x)) // prints 1, 2, 3 list.foreach(println) // same list.map(x = x + 2) // = List(3, 4, 5) list.map(_ + 2) // same, with placeholder notation list.filter(x = x % 2 == 1) // = List(1, 3) list.filter(_ % 2 == 1) // = List(1, 3) list.reduce((x, y) = x + y) // = 6 list.reduce(_ + _) // = 6 ;Scala Closure Syntax;Other Collection Methods;Spark ;Spark ;Scala;Scala;Scala;Scala;Scala;Spark例子;Scala 包机制;;RDD操作 – Resilient Distributed Dataset;RDD;RDD特点;RDD特点;RDD的存储与分区;RDD的内部表示;RDD的转换与操作;RDD操作;Transformations;Transformations;Actions;Actions;RDD工作机制;RDD;Lineage(血统);Lineage(血统);Lineage(血统);Lineage(血统);Lineage(血统);实例;Shuffle;Shuffle;;Shuffle – 改进版;取消merge sort;Spark工作流程 ;Spark调度;Spark调度;Spark启动流程;注册application 流程;注册application 流程;Spark调度;Spark;Spark;Spark调度;1、构建Spark Application运行环境; 在Driver Program中新建SparkContext; Spark Application运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由sparkcontext来协调; 2、SparkContext向资源管理器申请运行Executor资源,并启动StandaloneExecutorBackend,executor向sparkcontent申请task; 集群通过SparkContext连接到不同的cluster manager(standalone、yarn、mesos),cluster manager为运行应用的Executor分配资源;一旦连接建立之后,Spark每个Application就会获得各个节点上的Executor(进程);每个Application都有自己独立的executor进程;Executor才是真正运行在WorkNode上的工作进程,它们为应用来计算或者存储数据; 3、SparkContext获取到executor之后,Application的应用代码将会被发送??各个executor; 4、SparkContext构建RDD DAG图,将RDD DAG图分解成Stage DAG图,将Stage提交给TaskScheduler,最后由TaskScheduler将Task发送给Executor运行; 5、Task在Executor上运行,运行完毕后释放所有资源;;Spark调度;Spark调度;Spark调度;Spark调度;Spark调度;SparkContext;Spark 如何组成分布式网络;调度过程 -- DAG Direct?Acyclic?Graph有向无环图;Spark 调度;Spark事件;RDD Graph;DAGSchedul

文档评论(0)

bbnnmm885599 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档