2026年大数据工程师职业资格考试题库(附答案和详细解析)(0103).docxVIP

  • 1
  • 0
  • 约8.84千字
  • 约 11页
  • 2026-03-08 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0103).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

HDFS(Hadoop分布式文件系统)中NameNode的核心职责是?

A.存储数据块副本

B.管理文件元数据(如目录结构、文件权限)

C.执行MapReduce任务调度

D.处理客户端的实际数据读写请求

答案:B

解析:NameNode是HDFS的主节点,负责管理文件系统的元数据(如文件路径、块位置、副本数等),不存储实际数据块(由DataNode负责);MapReduce任务调度由ResourceManager完成;客户端数据读写需通过DataNode实现。

Spark中RDD(弹性分布式数据集)的持久化操作(persist())默认存储级别是?

A.MEMORY_AND_DISK(内存+磁盘)

B.MEMORY_ONLY(仅内存)

C.DISK_ONLY(仅磁盘)

D.MEMORY_ONLY_SER(内存序列化)

答案:B

解析:Spark的persist()方法默认存储级别为MEMORY_ONLY,即仅将RDD数据存储在内存中;若内存不足,未持久化的分区会在需要时重新计算。其他选项为可选存储级别,但非默认。

Kafka(分布式消息队列)中,消费者组(ConsumerGroup)的核心特性是?

A.同一个组内的消费者可以订阅不同Topic

B.一个分区(Partition)只能被组内一个消费者消费

C.消息默认按FIFO顺序被所有消费者组接收

D.消费者组无法实现消息的广播消费

答案:B

解析:Kafka通过消费者组实现消息的负载均衡,一个分区只能被组内一个消费者消费(避免重复处理);不同消费者组可独立订阅同一Topic(实现广播);同一组内消费者需订阅相同Topic。

下列哪项是数据仓库(DataWarehouse)的典型特性?

A.支持高并发事务操作(如OLTP)

B.存储当前实时业务数据

C.面向主题(Subject-Oriented)组织数据

D.采用关系模型存储非结构化数据

答案:C

解析:数据仓库的核心特性是面向主题(按业务主题如“销售”“用户”组织数据)、集成的(多源数据整合)、非易失的(历史数据持久化)、时变的(支持时间维度分析);OLTP是数据库的特性,数据仓库存储历史分析数据。

Flink(流处理框架)中,事件时间(EventTime)窗口的触发依赖于?

A.系统处理数据的时间(ProcessingTime)

B.数据中携带的时间戳(Timestamp)

C.数据进入Flink集群的时间(IngestionTime)

D.用户自定义的固定时间间隔

答案:B

解析:事件时间窗口基于数据本身携带的时间戳(如日志中的发生时间),需配合水印(Watermark)机制处理乱序数据;处理时间基于算子接收数据的系统时间,与事件时间无关。

HBase(列式存储数据库)中,RowKey设计的核心原则是?

A.尽可能长以保证唯一性

B.按时间倒序排列以优化最近数据访问

C.避免散列化(如MD5)以保证有序性

D.所有RowKey长度必须一致

答案:B

解析:HBase数据按RowKey字典序存储,倒序时间戳(如→)可避免热点问题(新数据集中写入同一Region);散列化(如加盐)是常见的热点解决方法;RowKey长度需适中(过长存贮开销大),无需强制一致。

数据倾斜(DataSkew)在分布式计算中的典型表现是?

A.所有任务执行时间均匀分布

B.部分任务因内存溢出(OOM)失败

C.集群网络带宽利用率持续低于50%

D.个别任务运行时间远长于其他任务

答案:D

解析:数据倾斜指某一Key对应的数据量远大于其他Key,导致处理该Key的任务需处理海量数据,运行时间显著延长;内存溢出可能由数据量过大或代码缺陷导致,但非数据倾斜特有表现。

MapReduce(分布式计算框架)中,Shuffle阶段的核心功能是?

A.将输入数据切分为多个分片(Split)

B.对Map输出数据进行分组和排序

C.合并Reduce任务的输出结果

D.监控任务执行状态并处理失败重试

答案:B

解析:Shuffle阶段是Map与Reduce的衔接环节,负责将Map输出的(Key,Value)对按Key分组,并根据Reduce数量分区,最终排序后传递给Reduce任务;数据分片由InputFormat完成,结果合并是Reduce输出步骤。

数据湖(DataLake)与传统数据仓库的主要区别是?

A.数据湖仅存储结构化数据

B.数据湖支持原始数据的直接存储

C.数据仓库采用分布式文件系统存储

D.数据湖必须使用关系型数据库管理

答案:B

解析:数据湖

文档评论(0)

1亿VIP精品文档

相关文档