spark笔试题及答案.pdfVIP

  • 0
  • 0
  • 约7.08千字
  • 约 13页
  • 2026-03-07 发布于山东
  • 举报

spark笔试题及答案

考试时间:120分钟总分:100分年级/班级:高二/计算机

科学

试标题:spark笔试题及答案

一、选择题

1.在Spark中,以下哪个操作是按key进行聚合的操作?

A.map

B.reduceByKey

C.filter

D.flatMap

2.Spark中,以下哪个shuffle操作会重新分区数据?

A.repartition

B.coalesce

C.sample

D.allToAll

3.在Spark中,以下哪个持久化级别提供了最高的性能?

A.DISK_ONLY

B.MEMORY_ONLY

C.MEMORY_AND_DISK

D.OFF_HEAP

4.Spark中,以下哪个API用于读取CSV文件?

A.readTextFile

B.readCSV

C.readParquet

D.readJSON

5.在Spark中,以下哪个操作是用于过滤数据集的操作?

A.map

B.filter

C.reduceByKey

D.flatMap

6.Spark中,以下哪个操作是用于对数据进行排序的操作?

A.sortBy

B.map

C.reduceByKey

D.flatMap

7.在Spark中,以下哪个操作是用于将两个RDD进行连接的操作?

A.join

B.union

C.intersection

D.subtract

8.Spark中,以下哪个持久化级别提供了最低的内存占用?

A.DISK_ONLY

B.MEMORY_ONLY

C.MEMORY_AND_DISK

D.OFF_HEAP

9.在Spark中,以下哪个操作是用于对数据进行分组聚合的操作?

A.groupByKey

B.reduceByKey

C.filter

D.flatMap

10.Spark中,以下哪个API用于写入Parquet文件?

A.writeTextFile

B.writeCSV

C.writeParquet

D.writeJSON

二、填空题

1.Spark的核心抽象是______和______。

2.在Spark中,______是一种轻量级的持久化方式。

3.Spark中,______操作是用于对数据进行映射的操作。

4.在Spark中,______是一种分布式数据存储系统。

5.Spark中,______操作是用于对数据进行过滤的操作。

6.在Spark中,______是一种持久化级别,它将数据存储在内存中。

7.Spark中,______操作是用于对数据进行排序的操作。

8.在Spark中,______是一种持久化级别,它将数据存储在磁盘上。

9.Spark中,______操作是用于将两个RDD进行连接的操作。

10.在Spark中,______是一种持久化级别,它将数据存储在内存和磁盘上。

三、多选题

1.在Spark中,以下哪些操作会触发shuffle?

A.reduceByKey

B.join

C.filter

D.repartition

2.Spark中,以下哪些持久化级别提供了内存和磁盘的持久化?

A.MEMORY_AND_DISK

B.DISK_ONLY

C.MEMORY_ONLY

D.OFF_HEAP

3.在Spark中,以下哪些API用于读取数据?

A.readTextFile

B.readCSV

C.readParquet

D.readJSON

4.Spark中,以下哪些操作是用于对数据进行聚合的操作?

A.groupByKey

B.reduceByKey

C.filter

D.flatMap

5.在Spark中,以下哪些持久化级别提供了最高的性能?

A.DISK_ONLY

B.MEMORY_ONLY

C.MEMORY_AND_DISK

D.OFF_HEAP

6.Spark中,以下哪些操作是用于对数据进行排序的操作?

A.sortBy

B.map

C.reduceByKey

D.flatMap

7.在Spark中,以下哪些操作是用于将两个RDD进行连接的操作?

A.join

B.union

C.inters

文档评论(0)

1亿VIP精品文档

相关文档