- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析与内存计算
第五讲 Spark
;Spark动机;Spark优点;SPARK vs hadoop;Spark优点;Spark快的理由;从实例开始, 漫游Spark内核;Spark和MapReduce比较;Spark生态圈;Spark框架;Spark框架优势;目录结构;目录结构;资源管理与作业调度;Spark启动模式;Yarn;Yarn - 一种分层的集群框架方法;Yarn;Yarn;Mesos;Mesos;Mesos;Mesos vs Yarn;Mesos vs Yarn;Spark主要内容;Scala;Scala;Scala def函数;Quick Tour;Scala;Scala;Scala;Quick Tour;Processing collections with functional programming:
val list = List(1, 2, 3)
list.foreach(x = println(x)) // prints 1, 2, 3list.foreach(println) // same
list.map(x = x + 2) // = List(3, 4, 5)list.map(_ + 2) // same, with placeholder notation
list.filter(x = x % 2 == 1) // = List(1, 3)list.filter(_ % 2 == 1) // = List(1, 3)
list.reduce((x, y) = x + y) // = 6list.reduce(_ + _) // = 6
;Scala Closure Syntax;Other Collection Methods;Spark;Spark;Scala;Scala;Scala;Scala;Scala;Spark例子;Scala 包机制;;RDD操作 – Resilient Distributed Dataset;RDD;RDD特点;RDD特点;RDD的存储与分区;RDD的内部表示;RDD的转换与操作;RDD操作;Transformations;Transformations;Actions;Actions;RDD工作机制;RDD;Lineage(血统);Lineage(血统);Lineage(血统);Lineage(血统);Lineage(血统);实例;Shuffle;Shuffle;;Shuffle – 改进版;取消merge sort;Spark工作流程
;Spark调度;Spark调度;Spark启动流程;注册application 流程;注册application 流程;Spark调度;Spark;Spark;Spark调度;1、构建Spark Application运行环境;
在Driver Program中新建SparkContext;
Spark Application运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由sparkcontext来协调;
2、SparkContext向资源管理器申请运行Executor资源,并启动StandaloneExecutorBackend,executor向sparkcontent申请task;
集群通过SparkContext连接到不同的cluster manager(standalone、yarn、mesos),cluster manager为运行应用的Executor分配资源;一旦连接建立之后,Spark每个Application就会获得各个节点上的Executor(进程);每个Application都有自己独立的executor进程;Executor才是真正运行在WorkNode上的工作进程,它们为应用来计算或者存储数据;
3、SparkContext获取到executor之后,Application的应用代码将会被发送??各个executor;
4、SparkContext构建RDD DAG图,将RDD DAG图分解成Stage DAG图,将Stage提交给TaskScheduler,最后由TaskScheduler将Task发送给Executor运行;
5、Task在Executor上运行,运行完毕后释放所有资源;;Spark调度;Spark调度;Spark调度;Spark调度;Spark调度;SparkContext;Spark 如何组成分布式网络;调度过程 -- DAG Direct?Acyclic?Graph有向无环图;Spark 调度;Spark事件;RDD Graph;DAGSchedul
您可能关注的文档
最近下载
- 2024-2025学年河北省保定市竞秀区北京师大保定实验学校八年级(上)月考数学试卷(9月份)(原卷全解析版).doc VIP
- Toshiba东芝软水机TS10-01 TS15-01 TS20-01用户手册.pdf
- 娄景书(娄景书).doc VIP
- 人教版高中英语新教材必修2单词默写表.docx VIP
- 三章情绪题材周期之加速阶段.pdf VIP
- 物联网、网络安全及系统管理相关知识试卷.doc
- 《小学生C++创意编程》第1单元课件 软件下载安装.pptx VIP
- 智能财务软件选型.pptx VIP
- 2025年及未来5年中国测井仪器市场分析及数据监测研究报告.docx
- 生物:《体液调节》课件.ppt VIP
文档评论(0)