深入理解Spark：核心思想与源码分析.pptxVIP

下载本文档

1
0
约2.57千字
约 28页
2023-08-02 发布于广东
举报
版权申诉

深入理解Spark：核心思想与源码分析.pptx

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深入理解Spark：核心思想与源码分析读书笔记模板 01思维导图读书笔记作者介绍内容摘要目录分析精彩摘录目录0305020406 思维导图源码核心思想例子类附录工具介绍小结第章执行总体设计设计创建任务环境模式计算概述决策树本书关键字分析思维导图内容摘要内容摘要本书不会教你如何开发Spark应用程序，只是用一些经典例子演示。本书简单介绍Hadoop MapReduce、Hadoop YARN、Mesos、Tachyon、ZooKeeper、HDFS、Amazon S3，但不会过多介绍这些框架的使用，因为市场上已经有丰富的这类书籍供读者挑选。本书也不会过多介绍Scala、Java、Shell的语法，读者可以在市场上选择适合自己的书籍阅读。本书最后还添加了几个附录，包括：附录A介绍的Spark中最常用的工具类Utils；附录B是Akka的简介与工具类AkkaUtils的介绍；附录C为Jetty的简介和工具类JettyUtils的介绍；附录D为Metrics库的简介和测量容器MetricRegistry的介绍；附录E演示了Hadoop1.0版本中的word count例子；附录F介绍了工具类CommandUtils的常用方法；附录G是关于Netty的简介和工具类NettyUtils的介绍；附录H列举了**编译Spark源码时遇到的问题及解决办法。读书笔记读书笔记有点差，书中有错，按照步骤可以做出来，但是讲解不详细，不是特别好的一本书。全篇大段贴图加大段代码的书，垃圾书。基础的回顾，值得赞扬的是基于核心功能的基本梳理是比较合理的。认识这个作者，很nice的一个人。无论是思路还是源码讲解部分都是我看的几本讲源码的书里面最好的。从安装JDK开讲Spark，贴的代码就有一半字数(以上)，全书内容基本可以从网上找来，没有多少自己的经验心得，完全不值得为这种书花钱。阿里巴巴集团专家鼎力推荐，阿里巴巴资深Java开发和大数据专家撰写结合大量图和示例，对Spark的核心模块、部署和协作模块的实现原理与使用技巧进行了深入的剖析与解读本书特色：按照源码分析的习惯设计，条分缕析。大概3年前了感觉还是不错的书基于spark1.2.0版本剖析源码计算模型、存储模型以及调度体系都给出了非常完备的介绍和解析其实作者能给出这样一个读源码的框架就很不错了贴代码也是无奈之举。目录分析第2章 Spark设计理念与基本架构第1章环境准备准备篇第1章环境准备1.1运行环境准备1.2 Spark初体验1.3阅读环境准备1.4 Spark源码编译与调试1.5小结第2章 Spark设计理念与基本架构2.1初识Spark2.2 Spark基础知识2.3 Spark基本设计思想2.4 Spark基本架构2.5小结第3章 SparkContext的初始化第4章存储体系第5章任务提交与执行第6章计算引擎第7章部署模式12345核心设计篇第3章 SparkContext的初始化3.1 SparkContext概述3.2创建执行环境SparkEnv3.3创建metadataCleaner3.4 SparkUI详解3.5 Hadoop相关配置及Executor环境变量3.6创建任务调度器TaskScheduler3.7创建和启动DAGScheduler3.8 TaskScheduler的启动3.9启动测量系统MetricsSystem 第4章存储体系4.1存储体系概述4.2 shuffle服务与客户端4.3 BlockManagerMaster对BlockManager的管理4.4磁盘块管理器DiskBlockManager4.5磁盘存储DiskStore4.6内存存储MemoryStore4.7 Tachyon存储TachyonStore4.8块管理器BlockManager4.9 metadataCleaner和broadcastCleaner 第5章任务提交与执行5.1任务概述5.2广播Hadoop的配置信息5.3 RDD转换及DAG构建5.4任务提交5.5执行任务5.6任务执行后续处理5.7小结第6章计算引擎6.1迭代计算6.2什么是shuffle6.3 map端计算结果缓存处理6.4 map端计算结果持久化6.5 reduce端读取中间计算结果6.6 reduce端计算6.7 map端与reduce端组合分析6.8小结第7章部署模式7.1 local部署模式7.2 local-cluster部署模式7.3 Standalone部署模式7.4容错机制7.5其他部署方案7.6小结第8章 Spark SQL第9章流式计算第10章图计算第11章机器学习扩展篇第8章 Spark SQL8.1 Spark SQL总体设计8.2字典表Catalog8.3 Tr