2026年大数据工程师职业资格考试题库(附答案和详细解析)(0109).docxVIP

  • 0
  • 0
  • 约8.67千字
  • 约 11页
  • 2026-02-04 发布于江苏
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0109).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下关于HDFS(Hadoop分布式文件系统)的描述中,正确的是()

A.HDFS默认块大小为32MB

B.NameNode负责存储数据块副本

C.HDFS适合存储大量小文件

D.数据块副本数默认配置为3

答案:D

解析:HDFS默认块大小为128MB(A错误);NameNode管理元数据,DataNode存储数据块副本(B错误);HDFS设计目标是处理大文件,小文件会占用过多NameNode内存(C错误);数据块副本数默认配置为3(D正确)。

Spark的运行模式中,独立于其他资源管理系统的是()

A.Standalone模式

B.YARN模式

C.Mesos模式

D.Kubernetes模式

答案:A

解析:Standalone是Spark自带的资源管理模式,不依赖外部系统(A正确);YARN、Mesos、Kubernetes均需依赖外部资源管理器(B/C/D错误)。

Kafka中用于标识消息在分区中位置的术语是()

A.GroupID

B.Offset

C.Partition

D.Topic

答案:B

解析:GroupID是消费者组标识(A错误);Offset是消息在分区中的偏移量(B正确);Partition是主题的分片(C错误);Topic是消息的逻辑分类(D错误)。

数据仓库分层中,存储原始未加工数据的层是()

A.ODS层(操作数据层)

B.DWD层(明细数据层)

C.DWS层(汇总数据层)

D.ADS层(应用数据层)

答案:A

解析:ODS层直接存储从业务系统抽取的原始数据(A正确);DWD层是清洗后的明细数据(B错误);DWS层是轻度汇总数据(C错误);ADS层是面向应用的结果数据(D错误)。

Flink流处理中,基于事件实际发生时间的时间类型是()

A.ProcessingTime(处理时间)

B.IngestionTime(摄入时间)

C.EventTime(事件时间)

D.WatermarkTime(水印时间)

答案:C

解析:EventTime是事件本身的时间戳(C正确);ProcessingTime是系统处理事件的时间(A错误);IngestionTime是事件进入Flink的时间(B错误);Watermark是用于处理乱序事件的机制(D错误)。

MapReduce作业中,Shuffle阶段的核心操作是()

A.输入数据分片

B.数据排序与分区

C.输出结果合并

D.任务调度分配

答案:B

解析:Shuffle阶段负责将Mapper输出的数据按Key分区并排序,传递给Reducer(B正确);输入分片属于InputFormat(A错误);结果合并属于Reducer输出(C错误);任务调度属于YARN(D错误)。

以下哪项是解决分布式计算中数据倾斜的常用方法?()

A.增加内存分配

B.降低任务并行度

C.关闭推测执行

D.对Key进行加盐处理

答案:D

解析:数据倾斜是由于部分Key数据量过大导致,加盐处理(如为Key添加随机前缀)可分散数据(D正确);增加内存无法解决数据分布不均(A错误);降低并行度会加剧倾斜(B错误);推测执行与倾斜无关(C错误)。

HBase数据模型中,用于唯一标识一行数据的是()

A.RowKey

B.ColumnFamily

C.Timestamp

D.Cell

答案:A

解析:RowKey是行的唯一标识(A正确);ColumnFamily是列的集合(B错误);Timestamp是版本标识(C错误);Cell是行键、列族、列名、时间戳的组合(D错误)。

机器学习特征工程中,将连续型特征转换为离散型特征的操作是()

A.特征归一化

B.特征编码

C.特征分箱

D.特征选择

答案:C

解析:特征分箱(如等距分箱)将连续值划分为区间(C正确);归一化是缩放特征范围(A错误);编码是处理类别变量(B错误);选择是筛选重要特征(D错误)。

以下属于数据脱敏技术的是()

A.数据加密

B.姓名替换为“某先生”

C.数据压缩

D.数据去重

答案:B

解析:数据脱敏是对敏感信息进行变形(如姓名替换)(B正确);加密是保护数据隐私但未改变内容(A错误);压缩是减小存储(C错误);去重是删除重复数据(D错误)。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hadoop生态核心组件的有()

A.HDFS(分布式文件系统)

B.YARN(资源管理器)

C.Hive(数据仓库工具)

D.Kafka(消息队列)

答案:ABC

解析:Hadoop生态核心包括HDFS(存储)、YARN

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档