大数据实时分析工程师岗位招聘考试试卷及答案.docVIP

  • 0
  • 0
  • 约3.01千字
  • 约 6页
  • 2026-01-21 发布于山东
  • 举报

大数据实时分析工程师岗位招聘考试试卷及答案.doc

大数据实时分析工程师岗位招聘考试试卷及答案

大数据实时分析工程师岗位招聘考试试卷

一、填空题(共10题,每题1分)

1.Kafka中负责存储消息的核心组件是______。

2.ApacheFlink的______组件负责任务调度与资源管理。

3.SparkStreaming的核心抽象是______,表示数据流的分段。

4.实时计算中,数据产生到结果输出的时间间隔称为______。

5.Hadoop生态中,用于实时查询的列式引擎是______。

6.Kafka主题分区数通常与______数量关联,提升并行度。

7.Flink中跨任务并行实例共享的状态是______状态。

8.SparkStructuredStreaming中,仅适用于无状态查询的输出模式是______。

9.实时数据采集流转的常用工具是______。

10.Kafka消息的默认保留时间是______天。

二、单项选择题(共10题,每题2分)

1.以下不属于实时计算生态的是?

A.FlinkB.SparkStreamingC.HiveD.KafkaStreams

2.Kafka消费者从哪个位置读取消息?

A.分区起始偏移量B.消费者偏移量C.生产者偏移量D.分区结束偏移量

3.Flink基于时间的滚动窗口是?

A.TumblingWindowB.SlidingWindowC.SessionWindowD.GlobalWindow

4.更适合实时计算的场景是?

A.月度报表B.实时用户行为分析C.历史归档D.离线清洗

5.SparkStructuredStreaming默认处理无界数据的方式是?

A.微批处理B.纯流处理C.批处理D.混合处理

6.Kafka副本因子最小为?

A.1B.2C.3D.无限制

7.不适合Flink大状态存储的后端是?

A.MemoryStateBackendB.FsStateBackendC.RocksDBStateBackendD.无

8.“Exactly-Once”语义指?

A.至少一次B.最多一次C.恰好一次D.任意次

9.实时数据可视化常用工具是?

A.TableauB.GrafanaC.ExcelD.Hive

10.Kafka分区的作用不包括?

A.提升并行度B.数据持久化C.负载均衡D.数据压缩

三、多项选择题(共10题,每题2分)

1.实时计算的核心特点是?

A.低延迟B.高吞吐量C.无界数据处理D.离线分析

2.Flink支持的部署模式有?

A.LocalB.StandaloneC.YARND.Kubernetes

3.Kafka核心组件包括?

A.BrokerB.TopicC.PartitionD.ConsumerGroup

4.属于实时计算框架的是?

A.FlinkB.KafkaStreamsC.StormD.MapReduce

5.SparkStructuredStreaming支持的数据源有?

A.KafkaB.FileC.SocketD.HDFS

6.Flink状态管理类型包括?

A.算子状态B.键控状态C.广播状态D.全局状态

7.实时pipeline的环节包括?

A.数据采集B.清洗C.实时计算D.可视化

8.Kafka消息保留策略是?

A.基于时间B.基于大小C.基于偏移量D.基于主题数

9.适合Exactly-Once的场景是?

A.金融交易统计B.实时订单监控C.日志收集D.广告点击计数

10.实时窗口聚合操作有?

A.计数B.求和C.平均值D.最大值

四、判断题(共10题,每题2分)

1.Kafka主题可动态创建。()

2.FlinkJobManager不支持高可用。()

3.SparkStreaming是微批处理框架。()

4.实时计算延迟一定低于离线计算。()

5.新版Kafka消费者偏移量存储在ZooKeeper。()

6.Flink窗口仅支持时间窗口。()

7.SparkStructuredStreaming支持Exactly-Once。()

8.Grafana仅支持Prometheus数据源。()

9.Kafka分区越多性能越好。()

10.Flink广播状态跨所有并行实例共享。()

五、简答题(共4题,每题5分)

1.简述Flink与SparkStreaming的核心区别。

2.什么是Kafka的Exactly-Once语义?如何实现?

3.实时计算中窗口聚合的作用及常见类型。

4.实时数据pipeline的典型架构。

六、讨论题(共2题,每题5分)

1.列举3个Flink实时任务的性能优化点并说明。

2.实时计算中数据倾斜的常见原因及解决方法。

---

参考答案

一、填空题答案

1.Broker

2.JobManager

3.DStream

4.端到端延迟

5.Impala

6.消费者组

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档