第5讲Spark_88703337技巧.ppt

下载文档 降价啦

26
0
约 166页
2016-07-28 发布于湖北
举报
版权申诉
保障服务

第5讲Spark_88703337技巧.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据分析与内存计算第五讲 Spark ;Spark动机;Spark优点;SPARK vs hadoop;Spark优点;Spark快的理由;从实例开始，漫游Spark内核;Spark和MapReduce比较;Spark生态圈;Spark框架;Spark框架优势;目录结构;目录结构;资源管理与作业调度;Spark启动模式;Yarn;Yarn - 一种分层的集群框架方法;Yarn;Yarn;Mesos;Mesos;Mesos;Mesos vs Yarn;Mesos vs Yarn;Spark主要内容;Scala;Scala;Scala def函数;Quick Tour;Scala;Scala;Scala;Quick Tour;Processing collections with functional programming: val list = List(1, 2, 3) list.foreach(x = println(x)) // prints 1, 2, 3list.foreach(println) // same list.map(x = x + 2) // = List(3, 4, 5)list.map(_ + 2) // same, with placeholder notation list.filter(x = x % 2 == 1) // = List(1, 3)list.filter(_ % 2 == 1) // = List(1, 3) list.reduce((x, y) = x + y) // = 6list.reduce(_ + _) // = 6 ;Scala Closure Syntax;Other Collection Methods;Spark;Spark;Scala;Scala;Scala;Scala;Scala;Spark例子;Scala 包机制;;RDD操作 – Resilient Distributed Dataset;RDD;RDD特点;RDD特点;RDD的存储与分区;RDD的内部表示;RDD的转换与操作;RDD操作;Transformations;Transformations;Actions;Actions;RDD工作机制;RDD;Lineage（血统）;Lineage（血统）;Lineage（血统）;Lineage（血统）;Lineage（血统）;实例;Shuffle;Shuffle;;Shuffle – 改进版;取消merge sort;Spark工作流程 ;Spark调度;Spark调度;Spark启动流程;注册application 流程;注册application 流程;Spark调度;Spark;Spark;Spark调度;1、构建Spark Application运行环境；在Driver Program中新建SparkContext； Spark Application运行的表现方式为：在集群上运行着一组独立的executor进程，这些进程由sparkcontext来协调； 2、SparkContext向资源管理器申请运行Executor资源，并启动StandaloneExecutorBackend，executor向sparkcontent申请task；集群通过SparkContext连接到不同的cluster manager(standalone、yarn、mesos)，cluster manager为运行应用的Executor分配资源；一旦连接建立之后，Spark每个Application就会获得各个节点上的Executor（进程）；每个Application都有自己独立的executor进程；Executor才是真正运行在WorkNode上的工作进程，它们为应用来计算或者存储数据； 3、SparkContext获取到executor之后，Application的应用代码将会被发送??各个executor； 4、SparkContext构建RDD DAG图，将RDD DAG图分解成Stage DAG图，将Stage提交给TaskScheduler，最后由TaskScheduler将Task发送给Executor运行； 5、Task在Executor上运行，运行完毕后释放所有资源；;Spark调度;Spark调度;Spark调度;Spark调度;Spark调度;SparkContext;Spark 如何组成分布式网络;调度过程 -- DAG Direct?Acyclic?Graph有向无环图;Spark 调度;Spark事件;RDD Graph;DAGSchedul