- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深入浅出spak
深入浅出Spark;目录;;Spark的发展历程;Spark特点;Spark整体架构;目录;Spark组件
Driver Program
(驱动程序) 是Spark 的核心组件
构建SparkContext(Spark应用的入口,它负责和整个集群的交互,创建需要的变量,还包含集群的配置信息等)
将用户提交的job转换为DAG图(类似数据处理的流程图)
根据策略将DAG图划分为多个stage,根据分区从而生成一系列tasks
根据tasks要求向资源管理器申请资源
提交任务并检测任务状态
Executor
真正执行task的单元,一个Worker Node上可以有多个Executor;Spark端到端流程;Driver运行在Client;Spark on YARN;目录;核心模块;核心模块——RDD整体介绍;作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的,在执行“转换”操作,并不会提交Job,只有在执行“动作”操作,所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的性能。;核心模块——RDD持久化;核???模块——RDD依赖关系;核心模块——RDD依赖关系;核心模块——RDD容错机制;核心模块——Scheduler整体介绍;核心模块——Scheduler之DAGScheduler;核心模块——Scheduler之TaskScheduler;核心模块——TaskScheduler之SchedulableBuilder;核心模块——TaskScheduler之TaskSetManager;核心模块——TaskScheduler之SchedulerBackend;核心模块——TaskScheduler之TaskSchedulerImpl;核心模块——TaskScheduler;核心模块——Storage;核心模块——Storage;核心模块——Shuffle;目录;应用库——整体介绍;应用库——Spark SQL;应用库——Spark Streaming; ;应用库——MLlib和GraphX
;目录; spark是对MapReduce计算模型的改进,可以说没有HDFS,MapReduce,就没有spark.;Hadoop;;目录;Spark应用场景;Spark在互联网界的使用
;Spark在移动网优测试结果
;Spark在移动网优测试结果分析
;总结;谢谢!;附录——Spark与Hadoop的区别(1);附录—— Spark与Hadoop的区别(2)
文档评论(0)