spark期末测试题解析.pdfVIP

  • 0
  • 0
  • 约6.55千字
  • 约 8页
  • 2026-03-07 发布于河南
  • 举报

spark期末测试题解析

一、选择题(每题2分,共20分)

1.下列哪个不是Spark的核心组件?()

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.HadoopDistributedFileSystem(HDFS)

2.Spark的RDD是什么的缩写?()

A.ResilientDistributedDataset

B.ReliableDistributedDataset

C.ResilientDiskDataset

D.ReliableDiskDataset

3.在Spark中,以下哪个操作是破坏性的?()

A.map()

B.filter()

C.transform()

D.cache()

4.SparkSQL中的DataFrame是什么?()

A.一个分布式数据集

B.一个分布式数据帧

C.一个分布式数据表

D.一个分布式数据模型

5.SparkStreaming处理数据的根本原理是什么?()

A.将流数据转换为RDD

B.将流数据转换为DataFrame

第1页共8页

C.将流数据转换为DataSet

D.将流数据转换为HDFS文件

6.以下哪个不是Spark的存储级别?()

A.Memory

B.Disk

C.Cache

D.OffHeap

7.Spark中,以下哪个操作会改变RDD的分区数?()

A.map()

B.reduceByKey()

C.repartition()

D.sortByKey()

8.Spark中,以下哪个操作是并行的?()

A.map()

B.filter()

C.count()

D.collect()

9.在Spark中,以下哪个配置参数控制内存大小?()

A.spark.executor.memory

B.spark.driver.memory

C.spark.memory.fraction

D.以上都是

10.Spark中,以下哪个是累加器(Accumulator)的特点?

()

A.可以被并行操作修改

第2页共8页

B.只能被并行操作初始化

C.只能被驱动程序修改

D.以上都是

二、填空题(每空1分,共10分)

1.Spark的核心思想是________和________。

2.Spark的RDD具有________和________两个重要特性。

3.SparkSQL中的DataFrame是________的一个子集。

4.SparkStreaming处理数据的根本原理是将流数据________

成RDD。

5.Spark中,默认的持久化存储级别是________。

6.Spark中,用于配置执行器

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档