2026年大数据工程师职业资格考试题库（附答案和详细解析）（0115）.docxVIP

下载本文档

1
0
约9.16千字
约 12页
2026-02-09 发布于上海
举报

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0115）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Hadoop生态中负责分布式资源管理的核心组件？

A.HBase

B.YARN

C.Hive

D.Spark

答案：B

解析：Hadoop生态的核心组件包括HDFS（分布式存储）、YARN（资源管理与任务调度）和MapReduce（分布式计算框架）。选项A（HBase）是列式存储数据库，C（Hive）是数据仓库工具，D（Spark）是独立的计算框架，均不负责资源管理，因此正确答案为B。

下列哪项不属于Spark的核心抽象？

A.RDD

B.DataFrame

C.Dataset

D.HDFS

答案：D

解析：Spark的核心抽象包括RDD（弹性分布式数据集）、DataFrame（结构化数据）和Dataset（强类型数据集）。HDFS是Hadoop的分布式文件系统，属于存储层，并非Spark的核心抽象，因此正确答案为D。

Kafka中用于标识消息在分区中位置的是？

A.Offset

B.Partition

C.Topic

D.ConsumerGroup

答案：A

解析：Kafka的消息在分区内通过Offset（偏移量）唯一标识位置；Partition（分区）是Topic的物理分割单位，Topic（主题）是消息的逻辑分类，ConsumerGroup（消费者组）用于实现消息的广播或负载均衡。因此正确答案为A。

以下哪种场景最适合使用HBase？

A.实时查询海量稀疏数据

B.离线批处理日志文件

C.关系型数据库的OLTP业务

D.实时计算流数据

答案：A

解析：HBase是列式存储的NoSQL数据库，适合高并发、低延迟的海量稀疏数据实时查询（如用户行为日志）；离线批处理通常用HadoopMapReduce或Spark，OLTP业务多用MySQL等关系型数据库，实时计算用Flink或SparkStreaming。因此正确答案为A。

数据仓库（DataWarehouse）的核心特性是？

A.面向事务、实时更新

B.面向主题、集成、非易失、时变

C.支持高并发写入

D.存储非结构化数据

答案：B

解析：数据仓库的四大特性是面向主题（按业务主题组织）、集成（多源数据整合）、非易失（历史数据只读）、时变（包含时间维度）。面向事务是OLTP数据库的特性，高并发写入是OLTP或缓存的特性，非结构化数据存储是数据湖的特性。因此正确答案为B。

Flink中用于处理时间窗口的核心概念是？

A.Checkpoint

B.Window

C.State

D.Watermark

答案：B

解析：Flink通过Window（窗口）将无限流划分为有限的处理单元；Checkpoint是容错机制，State是状态管理，Watermark是处理乱序数据的时间戳对齐机制。因此正确答案为B。

以下哪项不属于数据清洗的常见操作？

A.缺失值填充

B.异常值检测

C.数据标准化

D.数据抽样

答案：D

解析：数据清洗主要解决数据质量问题，包括缺失值填充、异常值检测、格式修正等；数据抽样属于数据预处理中的样本选择，用于减少计算量或平衡数据集，不属于清洗操作。因此正确答案为D。

分布式系统中，CAP定理指的是？

A.一致性、可用性、分区容错性

B.一致性、原子性、持久性

C.并发、原子性、分区容错性

D.一致性、可用性、事务性

答案：A

解析：CAP定理指出分布式系统无法同时满足一致性（Consistency）、可用性（Availability）和分区容错性（PartitionTolerance），只能三选二。B是ACID特性，C和D为干扰项。因此正确答案为A。

以下哪种数据库属于列式存储？

A.MySQL

B.Redis

C.HBase

D.MongoDB

答案：C

解析：HBase基于GoogleBigtable设计，采用列式存储；MySQL是行式关系型数据库，Redis是键值存储，MongoDB是文档型数据库。因此正确答案为C。

元数据（Metadata）不包含以下哪类信息？

A.数据字段含义

B.数据存储位置

C.数据更新频率

D.数据具体值

答案：D

解析：元数据是“关于数据的数据”，包括字段含义、存储位置、更新频率、数据血缘等描述性信息；数据具体值属于原始数据内容，不属于元数据。因此正确答案为D。

二、多项选择题（共10题，每题2分，共20分）

HDFS的主要特性包括？（）

A.高容错性（通过副本机制）

B.适合存储大量小文件

C.主从架构（NameNode/DataNode）

D.支持低延迟数据访问

答案：AC

解析：HDFS设计目标是存储大文件（如GB/TB级），通过多副本机制

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0115）.docxVIP