2026年大数据工程师职业资格考试题库(附答案和详细解析)(0118).docxVIP

  • 3
  • 0
  • 约8.93千字
  • 约 12页
  • 2026-04-28 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0118).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪组组件是Hadoop生态中分布式存储与资源管理的核心组件?

A.HDFS(分布式文件系统)与YARN(资源调度)

B.Spark(计算框架)与Hive(数据仓库)

C.Flink(流处理)与Kafka(消息队列)

D.HBase(数据库)与ZooKeeper(协调服务)

答案:A

解析:Hadoop核心架构包括HDFS(存储)、YARN(资源管理)和MapReduce(计算)。选项B中Spark是独立计算框架,非Hadoop原生核心;C中Flink和Kafka属于流处理生态;D中HBase是基于HDFS的数据库,ZooKeeper是协调工具,均非存储与资源管理的核心对。

以下哪种场景最适合使用SparkStreaming而非Storm?

A.需要亚秒级延迟的实时计数

B.要求严格Exactly-Once语义的金融交易处理

C.基于微批处理的日志分析(如5分钟窗口聚合)

D.低资源消耗的简单流过滤

答案:C

解析:SparkStreaming基于RDD的微批处理(如5秒/30秒批次),适合对延迟要求不高但需要复杂批处理逻辑的场景;Storm是纯流式处理,适合亚秒级延迟(A)和严格Exactly-Once(B);D属于轻量级流处理,Storm或Flink更合适。

数据清洗中“处理缺失

文档评论(0)

1亿VIP精品文档

相关文档