2026年大数据工程师职业资格考试题库（附答案和详细解析）（0108）.docxVIP

下载本文档

1
0
约6.74千字
约 10页
2026-02-03 发布于上海
举报

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0108）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Hadoop生态中负责分布式存储的核心组件？

A.YARN

B.HDFS

C.MapReduce

D.Hive

答案：B

解析：Hadoop核心组件中，HDFS（Hadoop分布式文件系统）负责分布式存储，YARN负责资源管理，MapReduce是计算框架，Hive是数据仓库工具。因此正确答案为B。

Spark中RDD（弹性分布式数据集）的核心特性是？

A.数据可变性

B.内存计算框架

C.不可变分布式集合

D.实时流处理能力

答案：C

解析：RDD是Spark的核心抽象，其核心特性是不可变性（一旦创建不可修改）和分布式（存储在集群节点）。内存计算是Spark的优势但非RDD特性，实时流处理由SparkStreaming实现。因此正确答案为C。

数据仓库（DataWarehouse）的主要应用场景是？

A.在线事务处理（OLTP）

B.在线分析处理（OLAP）

C.实时数据写入

D.小规模数据查询

答案：B

解析：数据仓库面向分析型场景（OLAP），支持复杂查询和多维分析；OLTP是数据库的核心场景（如MySQL）。因此正确答案为B。

Kafka中用于标识消息存储位置的核心概念是？

A.消费者组（ConsumerGroup）

B.分区（Partition）

C.主题（Topic）

D.偏移量（Offset）

答案：D

解析：Kafka中每个消息在分区内的唯一位置由偏移量（Offset）标识；主题是消息的逻辑分类，分区是物理存储单元，消费者组用于消费负载均衡。因此正确答案为D。

以下哪项不属于分布式计算框架？

A.HadoopMapReduce

B.Spark

C.HBase

D.Flink

答案：C

解析：HBase是分布式列式数据库（NoSQL），属于存储层；MapReduce、Spark、Flink均为计算框架。因此正确答案为C。

数据清洗中处理缺失值的常用方法不包括？

A.删除缺失值所在行

B.用均值/中位数填充

C.用随机数填充

D.回归模型预测填充

答案：C

解析：数据清洗中缺失值处理需基于业务逻辑，随机数填充会破坏数据分布，通常不采用；其他选项均为合理方法。因此正确答案为C。

Hive的本质是？

A.分布式数据库

B.数据仓库工具

C.内存计算引擎

D.消息队列

答案：B

解析：Hive是基于Hadoop的数据仓库工具，通过SQL-like语句（HiveQL）操作HDFS数据，本质是将SQL转换为MapReduce任务，并非数据库。因此正确答案为B。

以下哪项是Flink的时间类型？

A.事件时间（EventTime）

B.处理时间（ProcessingTime）

C.摄入时间（IngestionTime）

D.以上都是

答案：D

解析：Flink支持三种时间类型：事件时间（数据产生时间）、处理时间（系统处理时间）、摄入时间（数据进入Flink的时间）。因此正确答案为D。

以下哪项不是HBase的特点？

A.适合实时随机读写

B.支持SQL查询

C.列式存储

D.高扩展性

答案：B

解析：HBase是NoSQL数据库，不支持标准SQL（需通过Phoenix等中间件实现），其特点包括列式存储、高扩展性、实时读写。因此正确答案为B。

以下哪项是Spark中转换操作（Transformation）的典型特征？

A.立即触发计算

B.惰性执行

C.直接输出结果

D.操作不可链式调用

答案：B

解析：Spark转换操作（如map、filter）不会立即执行，而是生成新的RDD并记录计算逻辑（惰性执行），行动操作（如count、collect）才会触发计算。因此正确答案为B。

二、多项选择题（共10题，每题2分，共20分）

以下属于分布式文件系统的有？

A.HDFS

B.HBase

C.Ceph

D.MongoDB

答案：AC

解析：HDFS（Hadoop）和Ceph均为分布式文件系统；HBase是分布式数据库，MongoDB是文档型数据库。因此正确答案为AC。

Spark的部署模式包括？

A.Standalone

B.YARN

C.Mesos

D.Local

答案：ABC

解析：Spark支持Standalone（独立集群）、YARN（Hadoop资源管理）、Mesos（通用资源管理）三种分布式部署模式；Local是本地单节点模式，不属于生产环境部署模式。因此正确答案为ABC。

数据湖（DataLake）的典型特点包括？

A.存储原始数据（RawData）

B.支持多格式（结构化/非结构化）

C.严格的模式设计（Sche

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0108）.docxVIP