Spark编程模型和解析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二课: Spark 编程模型和解析 大数据高性能框架Spark Spark 大数据平台 第一版 讲师:杨勇 3 RDD 舍我其谁 ! 上周回顾  Spark 生态环境 – Spark ( Spark core )是核心 – RDD 是基础,是桥梁  Spark 部署 – Spark 集群部署 – Spark 应用程序部署  Spark 应用程序有两部分组成: – – Driver executor  Spark 两个应用工具 – – spark-shell spark-submit  Spark 的源码编译方法 – – – 大数据高性能框架Spark Maven Sbt make-distribution Spark 大数据平台 第一版 讲师:杨勇 4 本周内容  Spark 编程模型( Spark 应用程序第一部分)  RDD  Spark-shell 程序调试  IDEA 程序调试 大数据高性能框架Spark Spark 大数据平台 第一版 讲师:杨勇 5 本周内容  Spark 编程模型  RDD  Spark-shell 程序调试  IDEA 程序调试 大数据高性能框架Spark Spark 大数据平台 第一版 讲师:杨勇 6 Spark 编程模型  Spark 应用程序有两部分组成: – – Driver Executor  Spark 应用程序基本概念 大数据高性能框架Spark Spark 大数据平台 第一版 讲师:杨勇 7 Spark 编程模型  Spark 应用程序基本概念 大数据高性能框架Spark 大数据高性能框架Spark Spark 大数据平台 第一版 讲师:杨勇 8 Spark 编程模型  Spark 应用程序编程模型 – – Driver Program ( SparkContext ) Executor ( RDD 操作) ● ● ● ● 输入 Base- RDD Transformation RDD-RDD Action RDD-driver or Base 缓存 Persist or cache() – 共享变量 ● ● broadcast variables accumulators Spark 大数据平台 第一版 讲师:杨勇 9 Spark 编程模型  Driver program – 导入 Spark 的类和隐式转换 – – – 构建 Spark 应用程序的运行环境 SparkConf 初始化 SparkContext 关闭 SparkContext  Spark-shell 在启动的时候会自动构建 SparkContext ,名称为 sc 大数据高性能框架Spark Driver Spark 大数据平台 第一版 讲师:杨勇 10 Spark 编程模型  并行化 Scala 集合 – Spark 使用 parallelize 方法转换成 RDD – – – val rdd1 = sc.Parallelize(Array(1,2,3,4,5)) val rdd2 = sc.Parallelize(List(0 to 10),5) 参数 slice 是对数据集切片,每一个 slice 启动一个 Task 进行处理。 大数据高性能框架Spark 输入 Spark 大数据平台 第一版 讲师:杨勇 11 输入 Spark 编程模型  Hadoop 数据集 – Spark 可以将任何 hadoop 所支持存储资源转化成 RDD ,如本地文件、 HDFS 、 Cassandr – a 、 HBase, Amazon S3 等。 Spark 支持 text files, SequenceFiles 和任何 Hadoop InputFormat 格式 使用 textFile() 方法可以将本地文件或 HDFS 文件转换成 RDD ● – 如果读取本地文件,各节点都要有该文件;或者使用网络共享文件 – 支持整个文件目录读取,如 textFile(/my/directory) – 压缩文件读取,如 textFile(/my/directory/*.gz) – 通配符文件读取,如 textFile(/my/directory/*.txt) – textFile() 有可选的第二个参数 slice ,默认情况下,为每个 block 创建一个分 片,用户也可以通过 slice 指定更多的分片,但不能使用少于 blo

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档