2026年大数据工程师职业资格考试题库（附答案和详细解析）（0122）.docxVIP

下载本文档

0
0
约7.99千字
约 11页
2026-03-14 发布于上海
举报

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0122）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪项是Hadoop生态中负责分布式存储的核心组件？

A.MapReduce

B.HDFS

C.YARN

D.Hive

答案：B

解析：Hadoop核心组件包括HDFS（分布式文件系统，负责存储）、YARN（资源调度）和MapReduce（计算框架）。Hive是数据仓库工具。因此正确选项为B，其他选项分别对应计算、调度和上层应用。

以下哪种场景最适合使用SparkStreaming？

A.实时日志分析（秒级延迟）

B.历史数据批量统计（小时级）

C.高并发事务处理（毫秒级）

D.非结构化数据存储

答案：A

解析：SparkStreaming基于微批处理模型，适合秒级延迟的实时计算；历史批量统计更适合HadoopMapReduce；高并发事务处理是关系型数据库的场景；非结构化存储是HDFS的职责。因此选A。

数据清洗中处理“缺失值”的常用方法不包括？

A.删除缺失记录

B.用均值填充

C.用随机数填充

D.用模型预测填充

答案：C

解析：数据清洗中缺失值处理需保持数据逻辑一致性，随机数填充会破坏数据分布，通常不采用。其他选项均为合理方法（删除、均值/中位数填充、模型预测）。故选C。

分布式系统中“CAP定理”的三个特性不包括？

A.一致性（Consistency）

B.可用性（Availability）

C.分区容错性（PartitionTolerance）

D.原子性（Atomicity）

答案：D

解析：CAP定理指分布式系统中一致性、可用性、分区容错性三者无法同时满足，原子性是事务ACID特性之一，不属于CAP。故选D。

以下哪种数据库属于NoSQL中的列式存储？

A.MySQL

B.Redis

C.HBase

D.MongoDB

答案：C

解析：HBase基于HDFS实现列式存储，适合海量稀疏数据；MySQL是关系型（行式），Redis是键值，MongoDB是文档型。故选C。

数据湖（DataLake）与数据仓库（DataWarehouse）的核心区别是？

A.数据结构：湖支持结构化，仓库支持非结构化

B.存储成本：湖更高，仓库更低

C.处理阶段：湖存储原始数据，仓库存储加工数据

D.查询性能：湖更快，仓库更慢

答案：C

解析：数据湖存储原始的、多格式的数据（结构化/非结构化），数据仓库存储经过清洗、建模的结构化数据。其他选项均错误（湖支持非结构化，存储成本更低，查询性能仓库优化更好）。故选C。

以下哪项是Flink中时间窗口的类型？

A.滑动窗口（SlidingWindow）

B.固定窗口（FixedWindow）

C.会话窗口（SessionWindow）

D.以上都是

答案：D

解析：Flink支持滑动、固定、会话等多种窗口类型，分别适用于不同业务场景（如固定窗口按时间分割，会话窗口按事件间隔分割）。故选D。

大数据平台中，YARN的主要功能是？

A.分布式计算任务调度

B.分布式文件存储

C.实时流数据处理

D.数据清洗转换

答案：A

解析：YARN（YetAnotherResourceNegotiator）负责集群资源管理和任务调度，HDFS负责存储，Spark/Flink负责计算，ETL工具负责清洗。故选A。

以下哪种技术用于解决数据倾斜（DataSkew）问题？

A.增加Reducer数量

B.随机前缀加盐

C.提高网络带宽

D.压缩数据存储

答案：B

解析：数据倾斜是由于部分键数据量过大导致，随机前缀加盐可将热点键分散到多个任务处理；增加Reducer数量可能缓解但非根本解决，网络带宽和压缩与倾斜无关。故选B。

元数据管理（MetadataManagement）的核心目标是？

A.提高数据存储效率

B.记录数据的来源、结构和血缘

C.增强数据加密安全性

D.加速数据查询响应

答案：B

解析：元数据是“关于数据的数据”，用于描述数据的来源（血缘）、结构（字段含义）、质量等信息，帮助理解和管理数据资产。其他选项是存储、安全、查询优化的目标。故选B。

二、多项选择题（共10题，每题2分，共20分）

Spark的核心组件包括以下哪些？（）

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.MLlib

E.GraphX

答案：ABCDE

解析：Spark生态包含Core（核心引擎）、SQL（结构化数据处理）、Streaming（流计算）、MLlib（机器学习）、GraphX（图计算），均为核心组件。Hive是Hadoop生态工具，非Spark组件。

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0122）.docxVIP

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0122）.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档