- 1
- 0
- 约6.32千字
- 约 8页
- 2026-03-07 发布于山东
- 举报
Spark大数据分析能力考核试卷
考试时间:______分钟总分:______分姓名:______
一、选择题
1.下列哪个选项不属于Spark的主要优势?
A.分布式存储和计算
B.in-memorycomputation
C.支持多种编程语言
D.完全免维护
2.在Spark中,下列哪个操作属于转换操作(Transformation)?
A.`collect()`
B.`reduceByKey()`
C.`count()`
D.`mapPartitions()`
3.SparkRDD的容错机制主要依赖于什么?
A.数据库事务
B.数据的冗余备份和任务重新计算
C.分布式文件系统的校验和
D.操作系统的磁盘快照
4.下列哪个组件是SparkSQL用于处理结构化数据的抽象?
A.RDD(ResilientDistributedDataset)
B.DataFrame
C.Dataset
D.SparkSession
5.在Spark中,`groupBy(keyfunc)`和`reduceByKey(keyfunc,
valuefunc)`的主要区别是什么?
A.`groupBy`更高效,因为它是本地操作
B.`reduceByKey`会对键进行shuffle,而`groupBy`不会
C.`reduceByKey`只适用于数值类型的数据
D.`groupBy`可以指定value的聚合函数,而`reduceByKey`不能
6.SparkStreaming中,DStream的基本数据单元是什么?
A.单个记录(RDD)
B.序列化的对象
C.流式数据中的一个微批处理(RDD)
D.分布式数据库表
7.当Spark应用程序运行在YARN集群管理器上时,Spark实例(Driver
和Executor)是如何启动的?
A.由YARN直接启动所有节点上的Executor
B.由提交作业的用户手动在某个节点上启动Driver,然后Driver负责
启动Executor
C.由YARN的ResourceManager启动Driver,再由Driver启动
Executor
D.由YARN的NodeManager启动Driver和Executor
8.以下哪个方法用于持久化SparkRDD到内存中?
A.`saveAsTextFile()`
B.`saveAsObjectFile()`
C.`persist()`
D.`cache()`
9.在SparkSQL中,`window()`函数用于实现什么功能?
A.对DataFrame进行分组
B.对DataFrame进行排序
C.对数据进行窗口函数计算(如滚动聚合、移动平均)
D.生成随机数
10.当Spark应用程序处理的数据量远大于集群内存时,以下哪种策略最有
可能导致内存不足(OutOfMemory,OOM)错误?
A.对RDD进行持久化(Persistence)
B.使用小文件进行输入
C.增加执行器的内存大小
D.优化SparkSQL的执行计划,减少中间数据的大小
二、填空题
1.Spark的核心抽象是________
原创力文档

文档评论(0)