- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark二次开发
Copyright © 2010 Huawei Technologies Co., Ltd. All rights reserved.
目标
学完本课程后,您将能够:
了解Spark任务运行流程;
搭建开发环境;
运行程序;
Copyright © 2010 Huawei Technologies Co., Ltd. All rights reserved. Page 1
目录
1. Spark任务运行的流程
2. 搭建开发环境
3. 运行程序
Copyright © 2010 Huawei Technologies Co., Ltd. All rights reserved. Page 2
1. Spark部署原则
在 集群中, 主要与以下组件进行交互:
FI Spark
) : 在 文件系统中读写数据 必选
1 HDFS Spark HDFS ( )
) : 任务的运行依赖 来进行资源的调度管理 必选
2 YARN Spark Yarn ( )
) : 的表存储在 的数据库中必选
3 DBService Spark-sql Dbservice ( )
) , 的 的实现依赖于 的协调必选
4 Zookeeper JDBCServer HA Zookeeper ( )
) : 可以接收 发送的数据流可选
5 Kafka Spark Kafka ( )
) : 可以操作 的表可选
6 Hbase Spark Hbase ( )
Copyright © 2010 Huawei Technologies Co., Ltd. All rights reserved. Page 3
2. Spark任务执行流程
RDD Objects DAGScheduler TaskScheduler Worker
Cluster
Threads
manager
DAG TaskSet Task
Block
您可能关注的文档
- HBase大数据平台介绍.pdf
- HDFS分布式文件系统介绍.pdf
- Hive大数据平台介绍.pdf
- MongoDB在58同城的应用实践.pdf
- 百度分布式Redis平台介绍.pdf
- 大数据Impala二次开发.pdf
- 大数据Impala架构原理.pdf
- 大数据Kafka架构原理.pdf
- 大数据MapReduce和YARN二次开发.pdf
- 大数据Oozie架构原理.pdf
- 2024浙江衢州市常山县“英才荟”事业单位紧缺急需人才招聘18人笔试备考试题及答案解析.docx
- 2024浙江省近海海洋工程环境与生态安全重点实验室招聘1人笔试备考试题及答案解析.docx
- 2024广东阳江市阳西县补充招聘森林消防应急队员5人笔试备考试题及答案解析.docx
- 2024浙江松阳县新华书店有限公司招聘见习大学生1人笔试备考试题及答案解析.docx
- 2024云南曲靖市马龙区部分事业单位选调(含选调计划)26人笔试备考试题及答案解析.docx
- 2024广西柳州市残疾人劳动就业服务中心招聘残疾人专职委员1人笔试备考试题及答案解析.docx
- 2024广西河池市总工会公开招聘社会化工会工作者3人笔试备考试题及答案解析.docx
- 2024贵州华贵人寿保险股份有限公司第三次社会招聘15人笔试备考试题及答案解析.docx
- 2024广西百色市田东县5月城镇公益性岗位工作人员招聘4人笔试备考试题及答案解析.docx
- 2024广西百色市那坡县坡荷乡人民政府公开招聘编外工作人员2人笔试备考试题及答案解析.docx
文档评论(0)