2026年大数据工程师职业资格考试题库（附答案和详细解析）（0103）.docxVIP

下载本文档

1
0
约8.84千字
约 11页
2026-03-08 发布于上海
举报

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0103）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

HDFS（Hadoop分布式文件系统）中NameNode的核心职责是？

A.存储数据块副本

B.管理文件元数据（如目录结构、文件权限）

C.执行MapReduce任务调度

D.处理客户端的实际数据读写请求

答案：B

解析：NameNode是HDFS的主节点，负责管理文件系统的元数据（如文件路径、块位置、副本数等），不存储实际数据块（由DataNode负责）；MapReduce任务调度由ResourceManager完成；客户端数据读写需通过DataNode实现。

Spark中RDD（弹性分布式数据集）的持久化操作（persist()）默认存储级别是？

A.MEMORY_AND_DISK（内存+磁盘）

B.MEMORY_ONLY（仅内存）

C.DISK_ONLY（仅磁盘）

D.MEMORY_ONLY_SER（内存序列化）

答案：B

解析：Spark的persist()方法默认存储级别为MEMORY_ONLY，即仅将RDD数据存储在内存中；若内存不足，未持久化的分区会在需要时重新计算。其他选项为可选存储级别，但非默认。

Kafka（分布式消息队列）中，消费者组（ConsumerGroup）的核心特性是？

A.同一个组内的消费者可以订阅不同Topic

B.一个分区（Partition）只能被组内一个消费者消费

C.消息默认按FIFO顺序被所有消费者组接收

D.消费者组无法实现消息的广播消费

答案：B

解析：Kafka通过消费者组实现消息的负载均衡，一个分区只能被组内一个消费者消费（避免重复处理）；不同消费者组可独立订阅同一Topic（实现广播）；同一组内消费者需订阅相同Topic。

下列哪项是数据仓库（DataWarehouse）的典型特性？

A.支持高并发事务操作（如OLTP）

B.存储当前实时业务数据

C.面向主题（Subject-Oriented）组织数据

D.采用关系模型存储非结构化数据

答案：C

解析：数据仓库的核心特性是面向主题（按业务主题如“销售”“用户”组织数据）、集成的（多源数据整合）、非易失的（历史数据持久化）、时变的（支持时间维度分析）；OLTP是数据库的特性，数据仓库存储历史分析数据。

Flink（流处理框架）中，事件时间（EventTime）窗口的触发依赖于？

A.系统处理数据的时间（ProcessingTime）

B.数据中携带的时间戳（Timestamp）

C.数据进入Flink集群的时间（IngestionTime）

D.用户自定义的固定时间间隔

答案：B

解析：事件时间窗口基于数据本身携带的时间戳（如日志中的发生时间），需配合水印（Watermark）机制处理乱序数据；处理时间基于算子接收数据的系统时间，与事件时间无关。

HBase（列式存储数据库）中，RowKey设计的核心原则是？

A.尽可能长以保证唯一性

B.按时间倒序排列以优化最近数据访问

C.避免散列化（如MD5）以保证有序性

D.所有RowKey长度必须一致

答案：B

解析：HBase数据按RowKey字典序存储，倒序时间戳（如→）可避免热点问题（新数据集中写入同一Region）；散列化（如加盐）是常见的热点解决方法；RowKey长度需适中（过长存贮开销大），无需强制一致。

数据倾斜（DataSkew）在分布式计算中的典型表现是？

A.所有任务执行时间均匀分布

B.部分任务因内存溢出（OOM）失败

C.集群网络带宽利用率持续低于50%

D.个别任务运行时间远长于其他任务

答案：D

解析：数据倾斜指某一Key对应的数据量远大于其他Key，导致处理该Key的任务需处理海量数据，运行时间显著延长；内存溢出可能由数据量过大或代码缺陷导致，但非数据倾斜特有表现。

MapReduce（分布式计算框架）中，Shuffle阶段的核心功能是？

A.将输入数据切分为多个分片（Split）

B.对Map输出数据进行分组和排序

C.合并Reduce任务的输出结果

D.监控任务执行状态并处理失败重试

答案：B

解析：Shuffle阶段是Map与Reduce的衔接环节，负责将Map输出的（Key,Value）对按Key分组，并根据Reduce数量分区，最终排序后传递给Reduce任务；数据分片由InputFormat完成，结果合并是Reduce输出步骤。

数据湖（DataLake）与传统数据仓库的主要区别是？

A.数据湖仅存储结构化数据

B.数据湖支持原始数据的直接存储

C.数据仓库采用分布式文件系统存储

D.数据湖必须使用关系型数据库管理

答案：B

解析：数据湖

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0103）.docxVIP