深入浅出spak.pptx

下载文档

3
0
约1.11千字
约 49页
2018-12-19 发布于江苏
举报
版权申诉
保障服务

深入浅出spak.pptx

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深入浅出spak

深入浅出Spark;目录;;Spark的发展历程;Spark特点;Spark整体架构;目录;Spark组件 Driver Program (驱动程序) 是Spark 的核心组件构建SparkContext(Spark应用的入口,它负责和整个集群的交互，创建需要的变量，还包含集群的配置信息等) 将用户提交的job转换为DAG图(类似数据处理的流程图) 根据策略将DAG图划分为多个stage，根据分区从而生成一系列tasks 根据tasks要求向资源管理器申请资源提交任务并检测任务状态 Executor 真正执行task的单元，一个Worker Node上可以有多个Executor;Spark端到端流程;Driver运行在Client;Spark on YARN;目录;核心模块;核心模块——RDD整体介绍;作用于RDD上的Operation分为转换(transformantion)和动作(action)。 Spark中的所有“转换”都是惰性的，在执行“转换”操作，并不会提交Job，只有在执行“动作”操作，所有operation才会被提交到cluster中真正的被执行。这样可以大大提升系统的性能。;核心模块——RDD持久化;核???模块——RDD依赖关系;核心模块——RDD依赖关系;核心模块——RDD容错机制;核心模块——Scheduler整体介绍;核心模块——Scheduler之DAGScheduler;核心模块——Scheduler之TaskScheduler;核心模块——TaskScheduler之SchedulableBuilder;核心模块——TaskScheduler之TaskSetManager;核心模块——TaskScheduler之SchedulerBackend;核心模块——TaskScheduler之TaskSchedulerImpl;核心模块——TaskScheduler;核心模块——Storage;核心模块——Storage;核心模块——Shuffle;目录;应用库——整体介绍;应用库——Spark SQL;应用库——Spark Streaming; ;应用库——MLlib和GraphX ;目录; spark是对MapReduce计算模型的改进，可以说没有HDFS，MapReduce，就没有spark.;Hadoop;;目录;Spark应用场景;Spark在互联网界的使用 ;Spark在移动网优测试结果 ;Spark在移动网优测试结果分析 ;总结;谢谢！;附录——Spark与Hadoop的区别(1);附录—— Spark与Hadoop的区别(2)