2026年大数据工程师职业资格考试题库（附答案和详细解析）（0128）.docxVIP

下载本文档

0
0
约8.77千字
约 11页
2026-03-16 发布于上海
举报

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0128）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

HDFS中负责管理文件元数据（如文件目录结构、块位置）的核心组件是？

A.DataNode

B.NameNode

C.SecondaryNameNode

D.JournalNode

答案：B

解析：HDFS的核心组件中，NameNode负责存储和管理文件系统的元数据（包括文件目录结构、块到DataNode的映射等）；DataNode负责存储实际数据块；SecondaryNameNode是辅助NameNode进行元数据检查点的角色，并非核心管理组件；JournalNode用于HDFS高可用（HA）时的日志同步。因此正确答案为B。

以下哪项不是SparkRDD的特性？

A.不可变性

B.分区性

C.容错性

D.实时性

答案：D

解析：RDD（弹性分布式数据集）的核心特性包括不可变性（创建后不可修改）、分区性（数据分布在多个节点）、容错性（通过血统Lineage恢复数据）。实时性是流处理框架（如Flink）的特性，而非RDD本身的特性，因此D错误。

Hive中用于将SQL语句转换为MapReduce任务的组件是？

A.Metastore

B.Driver

C.Compiler

D.ExecutionEngine

答案：C

解析：Hive的Compiler组件负责将用户提交的HiveQL解析、优化并转换为MapReduce（或Spark）任务；Metastore存储元数据（如表结构）；Driver是协调各组件的入口；ExecutionEngine负责执行具体任务。因此正确答案为C。

以下哪种场景最适合使用HBase？

A.实时统计用户日活

B.存储时序性强的海量传感器数据

C.复杂多表关联查询

D.离线批处理日志文件

答案：B

解析：HBase是NoSQL的列存储数据库，适合海量单键查询（如按时间戳或设备ID快速检索）、高并发写入的场景（如传感器数据）。实时统计日活通常用Redis，复杂关联查询是关系型数据库或数据仓库的场景，离线批处理用Hadoop/Spark更合适，因此B正确。

Flink中用于处理乱序事件的核心机制是？

A.窗口（Window）

B.水印（Watermark）

C.状态（State）

D.检查点（Checkpoint）

答案：B

解析：水印（Watermark）是Flink处理乱序事件的关键机制，通过设定延迟时间阈值（如允许5秒延迟），告知系统“当前时间戳T的事件已全部到达”，从而触发窗口计算。窗口定义计算范围，状态存储中间结果，检查点用于容错，因此B正确。

数据仓库（DataWarehouse）的核心特点不包括？

A.面向主题

B.实时性

C.集成性

D.非易失性

答案：B

解析：数据仓库的核心特点是面向主题（按业务主题组织数据）、集成性（多源数据整合）、非易失性（历史数据只读）。实时性是数据湖或流处理系统的特性，因此B错误。

Kafka中消费者组（ConsumerGroup）的主要作用是？

A.提高消息发送吞吐量

B.实现消息的广播与负载均衡

C.管理生产者连接

D.保障消息的持久化存储

答案：B

解析：消费者组通过将主题分区分配给组内消费者，实现消息的负载均衡（同一组内消费者互不重复消费）；不同消费者组可独立消费同一主题，实现广播。提高吞吐量靠生产者批量发送，管理连接是Broker的功能，持久化由磁盘存储保障，因此B正确。

以下不属于数据清洗范畴的操作是？

A.填充缺失的用户年龄字段

B.将“2023/01/01”统一为“2023-01-01”

C.对用户评论进行情感分析

D.删除重复的订单记录

答案：C

解析：数据清洗主要处理数据质量问题（缺失、格式错误、重复、异常），情感分析属于数据挖掘或自然语言处理，不属于清洗范畴，因此C错误。

以下哪种分布式计算框架支持迭代计算（如机器学习训练）？

A.MapReduce

B.Spark

C.Storm

D.Flume

答案：B

解析：Spark的RDD支持内存计算，适合迭代算法（如梯度下降）；MapReduce每次计算需读写磁盘，效率低；Storm/Flink是流处理框架，主要处理实时数据流；Flume是日志采集工具，因此B正确。

大数据场景下，通常用以下哪个指标衡量数据的价值密度？

A.数据量（Volume）

B.数据类型（Variety）

C.有价值数据占比

D.数据产生速度（Velocity）

答案：C

解析：大数据的“4V”特性中，价值密度（Value）指有价值数据在总数据中的占比（如监控视频中仅几秒有有效信息），因此C正确。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hado

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0128）.docxVIP