2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1220).docxVIP

  • 0
  • 0
  • 约7.52千字
  • 约 11页
  • 2026-01-05 发布于上海
  • 举报

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1220).docx

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Hadoop生态中负责资源管理与任务调度的核心组件?

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案:B

解析:Hadoop生态中,HDFS(分布式文件系统)负责存储(A错误),YARN(YetAnotherResourceNegotiator)负责资源管理与任务调度(B正确),MapReduce是计算框架(C错误),HBase是列式数据库(D错误)。

数据仓库(DataWarehouse)的核心特性不包括?

A.面向主题

B.实时性

C.集成性

D.非易失性

答案:B

解析:数据仓库的核心特性是面向主题(A)、集成性(C)、非易失性(D)和时变性(长期历史数据),实时性是实时数据库的特性(B错误)。

以下哪种分布式计算框架适合处理高吞吐量、低延迟的流数据?

A.HadoopMapReduce

B.SparkCore

C.ApacheFlink

D.Hive

答案:C

解析:MapReduce适合批处理(A错误),SparkCore适合批处理与准实时(B错误),Flink是原生流处理框架,支持高吞吐量、低延迟(C正确),Hive是数据仓库工具(D错误)。

数据清洗中处理“缺失值”的常用方法不包括?

A.删除缺失记录

B.用均值/中位数填充

C.用随机数填充

D.插值法(如线性插值)

答案:C

解析:缺失值处理需基于业务逻辑,随机数填充可能破坏数据分布(C错误),其他选项均为合理方法(A/B/D正确)。

以下哪个是Kafka中用于标识消息所属逻辑分组的概念?

A.Topic

B.Partition

C.ConsumerGroup

D.Offset

答案:A

解析:Topic是消息的逻辑分类(A正确),Partition是物理分片(B错误),ConsumerGroup是消费者组(C错误),Offset是消息偏移量(D错误)。

数据建模中的“星型模型”特点是?

A.事实表直接连接多个维度表

B.维度表之间存在复杂关联

C.仅包含事实表

D.支持高度规范化

答案:A

解析:星型模型中事实表直接连接多个维度表(无维度表间关联)(A正确,B错误),必须包含事实表和维度表(C错误),属于反规范化设计(D错误)。

YARN中负责管理单个节点资源的组件是?

A.ResourceManager

B.NodeManager

C.ApplicationMaster

D.Container

答案:B

解析:ResourceManager是全局资源管理(A错误),NodeManager管理单个节点资源(B正确),ApplicationMaster管理具体任务(C错误),Container是资源分配单位(D错误)。

以下哪项不属于数据安全的核心措施?

A.数据脱敏

B.访问控制

C.数据压缩

D.加密存储

答案:C

解析:数据压缩是优化存储的技术,与安全无关(C错误),其他选项均为安全措施(A/B/D正确)。

元数据(Metadata)管理的核心作用是?

A.提高数据计算速度

B.描述数据的来源、结构与含义

C.存储原始业务数据

D.实现数据实时同步

答案:B

解析:元数据是“关于数据的数据”,用于描述数据属性(B正确),与计算速度(A)、原始存储(C)、实时同步(D)无关。

以下哪种机器学习平台支持分布式训练与模型部署?

A.Hive

B.TensorFlowExtended(TFX)

C.Sqoop

D.Flume

答案:B

解析:TFX是Google的机器学习平台,支持全流程(B正确);Hive是数据仓库(A错误),Sqoop是数据迁移(C错误),Flume是日志收集(D错误)。

二、多项选择题(共10题,每题2分,共20分)

以下属于HDFS(Hadoop分布式文件系统)特性的是?

A.主从架构(NameNode/SecondaryNameNode/DataNode)

B.适合存储小文件(100MB)

C.支持流式数据访问(一次写入,多次读取)

D.提供低延迟的随机读写

答案:AC

解析:HDFS采用主从架构(A正确);设计目标是大文件(B错误);支持流式访问(C正确);随机读写延迟高(D错误)。

Spark的核心组件包括?

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.SparkMLlib

答案:ABCD

解析:Spark生态包含Core(核心)、SQL(结构化数据)、Streaming(流处理)、MLlib(机器学习)(全选正确)。

数据湖(DataLake)与数据

文档评论(0)

1亿VIP精品文档

相关文档