- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目 录
Introduction
快速上手
Spark Shell
独立应用程序
开始翻滚吧!
编程指南
引入 Spark
初始化 Spark
Spark RDDs
并行集合
外部数据集
RDD 操作
RDD持久化
共享变量
从这里开始
Spark Streaming
一个快速的例子
基本概念
关联
初始化StreamingContext
离散流
输入DStreams
DStream中的转换
DStream的输出操作
缓存或持久化
Checkpointing
部署应用程序
监控应用程序
性能调优
减少批数据的执行时间
设置正确的批容量
内存调优
容错语义
Spark SQL
开始
数据源
RDDs
parquet文件
JSON数据集
本文档使用 看云 构建 - 2 -
Hive表
性能调优
其它SQL接口
编写语言集成(Language-Integrated)的相关查询
Spark SQL数据类型
GraphX编程指南
开始
属性图
图操作符
Pregel API
图构造者
顶点和边RDDs
图算法
例子
提交应用程序
独立运行Spark
在yarn上运行Spark
Spark配置
本文档使用 看云 构建 - 3 -
Introduction
Introduction
Spark 编程指南简体中文版
本书出处 :http//endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/
Copyright
本文翻译自Spark 官方文档
License
本文使用的许可请查看这里
本文档使用 看云 构建 - 4 -
快速上手
快速上手
快速上手
本节课程提供一个使用 Spark 的快速介绍 ,首先我们使用 Spark 的交互式 shell(用 Python 或 Scala) 介
绍它的 API。当演示如何在 Java, Scala 和 Python 写独立的程序时 ,看编程指南里完整的参考。
依照这个指南 ,首先从 Spark 网站下载一个 Spark 发行包。因为我们不会使用 HDFS ,你可以下载任何
Hadoop 版本的包。
Spark Shell
独立应用程序
开始翻滚吧!
本文档使用 看云 构建 - 5 -
Spark Shell
Spark Shell
使用 Spark Shell
基础
Spark 的 shell 作为一个强大的交互式数据分析工具 ,提供了一个简单的方式来学习 API。它可以使用
Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方
式开始运行 :
./bin/spark-shell
Spark 最主要的抽象是叫Resilient Dist
原创力文档


文档评论(0)