SparkStreaming流处理试卷及详解.docxVIP

  • 3
  • 0
  • 约1.06万字
  • 约 24页
  • 2026-07-05 发布于上海
  • 举报

SparkStreaming流处理试卷及详解

一、单项选择题(共10题,每题1分,共10分)

SparkStreaming的核心数据抽象是以下哪一项?

A.RDD

B.DStream

C.DataFrame

D.DataSet

答案:B

解析:DStream(离散流)是SparkStreaming独有的核心抽象,本质是按时间分片的RDD序列,对应每个微批次的数据集。选项A是SparkCore的核心抽象,选项C、D是SparkSQL的核心抽象,均不符合题意。

SparkStreaming中决定微批次划分粒度的核心参数是?

A.批次间隔

B.窗口长度

C.滑动步长

D.执行时长

答案:A

解析:批次间隔是用户初始化StreamingContext时设置的时间参数,是划分微批次的核心依据,也是任务提交的最小时间单位。选项B、C是窗口操作的专属参数,选项D是单批次任务的实际运行时长,均不能决定批次划分粒度。

下列属于SparkStreaming核心包自带、无需额外引入依赖的输入源是?

A.HDFS文件目录源

B.Kafka数据源

C.Flume数据源

D.Kinesis数据源

答案:A

解析:SparkStreaming核心包仅内置了文件目录源、TCP套接字源两类基础数据源,Kafka、Flume、Kinesis均属于第三方集成数据源,需要引入对应的连接器依赖才

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档