2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1220）.docxVIP

下载本文档

0
0
约7.52千字
约 11页
2026-01-05 发布于上海
举报

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1220）.docx

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Hadoop生态中负责资源管理与任务调度的核心组件？

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案：B

解析：Hadoop生态中，HDFS（分布式文件系统）负责存储（A错误），YARN（YetAnotherResourceNegotiator）负责资源管理与任务调度（B正确），MapReduce是计算框架（C错误），HBase是列式数据库（D错误）。

数据仓库（DataWarehouse）的核心特性不包括？

A.面向主题

B.实时性

C.集成性

D.非易失性

答案：B

解析：数据仓库的核心特性是面向主题（A）、集成性（C）、非易失性（D）和时变性（长期历史数据），实时性是实时数据库的特性（B错误）。

以下哪种分布式计算框架适合处理高吞吐量、低延迟的流数据？

A.HadoopMapReduce

B.SparkCore

C.ApacheFlink

D.Hive

答案：C

解析：MapReduce适合批处理（A错误），SparkCore适合批处理与准实时（B错误），Flink是原生流处理框架，支持高吞吐量、低延迟（C正确），Hive是数据仓库工具（D错误）。

数据清洗中处理“缺失值”的常用方法不包括？

A.删除缺失记录

B.用均值/中位数填充

C.用随机数填充

D.插值法（如线性插值）

答案：C

解析：缺失值处理需基于业务逻辑，随机数填充可能破坏数据分布（C错误），其他选项均为合理方法（A/B/D正确）。

以下哪个是Kafka中用于标识消息所属逻辑分组的概念？

A.Topic

B.Partition

C.ConsumerGroup

D.Offset

答案：A

解析：Topic是消息的逻辑分类（A正确），Partition是物理分片（B错误），ConsumerGroup是消费者组（C错误），Offset是消息偏移量（D错误）。

数据建模中的“星型模型”特点是？

A.事实表直接连接多个维度表

B.维度表之间存在复杂关联

C.仅包含事实表

D.支持高度规范化

答案：A

解析：星型模型中事实表直接连接多个维度表（无维度表间关联）（A正确，B错误），必须包含事实表和维度表（C错误），属于反规范化设计（D错误）。

YARN中负责管理单个节点资源的组件是？

A.ResourceManager

B.NodeManager

C.ApplicationMaster

D.Container

答案：B

解析：ResourceManager是全局资源管理（A错误），NodeManager管理单个节点资源（B正确），ApplicationMaster管理具体任务（C错误），Container是资源分配单位（D错误）。

以下哪项不属于数据安全的核心措施？

A.数据脱敏

B.访问控制

C.数据压缩

D.加密存储

答案：C

解析：数据压缩是优化存储的技术，与安全无关（C错误），其他选项均为安全措施（A/B/D正确）。

元数据（Metadata）管理的核心作用是？

A.提高数据计算速度

B.描述数据的来源、结构与含义

C.存储原始业务数据

D.实现数据实时同步

答案：B

解析：元数据是“关于数据的数据”，用于描述数据属性（B正确），与计算速度（A）、原始存储（C）、实时同步（D）无关。

以下哪种机器学习平台支持分布式训练与模型部署？

A.Hive

B.TensorFlowExtended（TFX）

C.Sqoop

D.Flume

答案：B

解析：TFX是Google的机器学习平台，支持全流程（B正确）；Hive是数据仓库（A错误），Sqoop是数据迁移（C错误），Flume是日志收集（D错误）。

二、多项选择题（共10题，每题2分，共20分）

以下属于HDFS（Hadoop分布式文件系统）特性的是？

A.主从架构（NameNode/SecondaryNameNode/DataNode）

B.适合存储小文件（100MB）

C.支持流式数据访问（一次写入，多次读取）

D.提供低延迟的随机读写

答案：AC

解析：HDFS采用主从架构（A正确）；设计目标是大文件（B错误）；支持流式访问（C正确）；随机读写延迟高（D错误）。

Spark的核心组件包括？

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.SparkMLlib

答案：ABCD

解析：Spark生态包含Core（核心）、SQL（结构化数据）、Streaming（流处理）、MLlib（机器学习）（全选正确）。

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1220）.docxVIP

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1220）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档