2026年大数据工程师职业资格考试题库(附答案和详细解析)(0122).docxVIP

  • 0
  • 0
  • 约7.99千字
  • 约 11页
  • 2026-03-14 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0122).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Hadoop生态中负责分布式存储的核心组件?

A.MapReduce

B.HDFS

C.YARN

D.Hive

答案:B

解析:Hadoop核心组件包括HDFS(分布式文件系统,负责存储)、YARN(资源调度)和MapReduce(计算框架)。Hive是数据仓库工具。因此正确选项为B,其他选项分别对应计算、调度和上层应用。

以下哪种场景最适合使用SparkStreaming?

A.实时日志分析(秒级延迟)

B.历史数据批量统计(小时级)

C.高并发事务处理(毫秒级)

D.非结构化数据存储

答案:A

解析:SparkStreaming基于微批处理模型,适合秒级延迟的实时计算;历史批量统计更适合HadoopMapReduce;高并发事务处理是关系型数据库的场景;非结构化存储是HDFS的职责。因此选A。

数据清洗中处理“缺失值”的常用方法不包括?

A.删除缺失记录

B.用均值填充

C.用随机数填充

D.用模型预测填充

答案:C

解析:数据清洗中缺失值处理需保持数据逻辑一致性,随机数填充会破坏数据分布,通常不采用。其他选项均为合理方法(删除、均值/中位数填充、模型预测)。故选C。

分布式系统中“CAP定理”的三个特性不包括?

A.一致性(Consistency)

B.可用性(Availability)

C.分区容错性(PartitionTolerance)

D.原子性(Atomicity)

答案:D

解析:CAP定理指分布式系统中一致性、可用性、分区容错性三者无法同时满足,原子性是事务ACID特性之一,不属于CAP。故选D。

以下哪种数据库属于NoSQL中的列式存储?

A.MySQL

B.Redis

C.HBase

D.MongoDB

答案:C

解析:HBase基于HDFS实现列式存储,适合海量稀疏数据;MySQL是关系型(行式),Redis是键值,MongoDB是文档型。故选C。

数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是?

A.数据结构:湖支持结构化,仓库支持非结构化

B.存储成本:湖更高,仓库更低

C.处理阶段:湖存储原始数据,仓库存储加工数据

D.查询性能:湖更快,仓库更慢

答案:C

解析:数据湖存储原始的、多格式的数据(结构化/非结构化),数据仓库存储经过清洗、建模的结构化数据。其他选项均错误(湖支持非结构化,存储成本更低,查询性能仓库优化更好)。故选C。

以下哪项是Flink中时间窗口的类型?

A.滑动窗口(SlidingWindow)

B.固定窗口(FixedWindow)

C.会话窗口(SessionWindow)

D.以上都是

答案:D

解析:Flink支持滑动、固定、会话等多种窗口类型,分别适用于不同业务场景(如固定窗口按时间分割,会话窗口按事件间隔分割)。故选D。

大数据平台中,YARN的主要功能是?

A.分布式计算任务调度

B.分布式文件存储

C.实时流数据处理

D.数据清洗转换

答案:A

解析:YARN(YetAnotherResourceNegotiator)负责集群资源管理和任务调度,HDFS负责存储,Spark/Flink负责计算,ETL工具负责清洗。故选A。

以下哪种技术用于解决数据倾斜(DataSkew)问题?

A.增加Reducer数量

B.随机前缀加盐

C.提高网络带宽

D.压缩数据存储

答案:B

解析:数据倾斜是由于部分键数据量过大导致,随机前缀加盐可将热点键分散到多个任务处理;增加Reducer数量可能缓解但非根本解决,网络带宽和压缩与倾斜无关。故选B。

元数据管理(MetadataManagement)的核心目标是?

A.提高数据存储效率

B.记录数据的来源、结构和血缘

C.增强数据加密安全性

D.加速数据查询响应

答案:B

解析:元数据是“关于数据的数据”,用于描述数据的来源(血缘)、结构(字段含义)、质量等信息,帮助理解和管理数据资产。其他选项是存储、安全、查询优化的目标。故选B。

二、多项选择题(共10题,每题2分,共20分)

Spark的核心组件包括以下哪些?()

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.MLlib

E.GraphX

答案:ABCDE

解析:Spark生态包含Core(核心引擎)、SQL(结构化数据处理)、Streaming(流计算)、MLlib(机器学习)、GraphX(图计算),均为核心组件。Hive是Hadoop生态工具,非Spark组件。

数据倾斜的常见原因包括?()

文档评论(0)

1亿VIP精品文档

相关文档