2026年大数据工程师职业资格考试题库(附答案和详细解析)(0128).docxVIP

  • 0
  • 0
  • 约8.77千字
  • 约 11页
  • 2026-03-16 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0128).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

HDFS中负责管理文件元数据(如文件目录结构、块位置)的核心组件是?

A.DataNode

B.NameNode

C.SecondaryNameNode

D.JournalNode

答案:B

解析:HDFS的核心组件中,NameNode负责存储和管理文件系统的元数据(包括文件目录结构、块到DataNode的映射等);DataNode负责存储实际数据块;SecondaryNameNode是辅助NameNode进行元数据检查点的角色,并非核心管理组件;JournalNode用于HDFS高可用(HA)时的日志同步。因此正确答案为B。

以下哪项不是SparkRDD的特性?

A.不可变性

B.分区性

C.容错性

D.实时性

答案:D

解析:RDD(弹性分布式数据集)的核心特性包括不可变性(创建后不可修改)、分区性(数据分布在多个节点)、容错性(通过血统Lineage恢复数据)。实时性是流处理框架(如Flink)的特性,而非RDD本身的特性,因此D错误。

Hive中用于将SQL语句转换为MapReduce任务的组件是?

A.Metastore

B.Driver

C.Compiler

D.ExecutionEngine

答案:C

解析:Hive的Compiler组件负责将用户提交的HiveQL解析、优化并转换为MapReduce(或Spark)任务;Metastore存储元数据(如表结构);Driver是协调各组件的入口;ExecutionEngine负责执行具体任务。因此正确答案为C。

以下哪种场景最适合使用HBase?

A.实时统计用户日活

B.存储时序性强的海量传感器数据

C.复杂多表关联查询

D.离线批处理日志文件

答案:B

解析:HBase是NoSQL的列存储数据库,适合海量单键查询(如按时间戳或设备ID快速检索)、高并发写入的场景(如传感器数据)。实时统计日活通常用Redis,复杂关联查询是关系型数据库或数据仓库的场景,离线批处理用Hadoop/Spark更合适,因此B正确。

Flink中用于处理乱序事件的核心机制是?

A.窗口(Window)

B.水印(Watermark)

C.状态(State)

D.检查点(Checkpoint)

答案:B

解析:水印(Watermark)是Flink处理乱序事件的关键机制,通过设定延迟时间阈值(如允许5秒延迟),告知系统“当前时间戳T的事件已全部到达”,从而触发窗口计算。窗口定义计算范围,状态存储中间结果,检查点用于容错,因此B正确。

数据仓库(DataWarehouse)的核心特点不包括?

A.面向主题

B.实时性

C.集成性

D.非易失性

答案:B

解析:数据仓库的核心特点是面向主题(按业务主题组织数据)、集成性(多源数据整合)、非易失性(历史数据只读)。实时性是数据湖或流处理系统的特性,因此B错误。

Kafka中消费者组(ConsumerGroup)的主要作用是?

A.提高消息发送吞吐量

B.实现消息的广播与负载均衡

C.管理生产者连接

D.保障消息的持久化存储

答案:B

解析:消费者组通过将主题分区分配给组内消费者,实现消息的负载均衡(同一组内消费者互不重复消费);不同消费者组可独立消费同一主题,实现广播。提高吞吐量靠生产者批量发送,管理连接是Broker的功能,持久化由磁盘存储保障,因此B正确。

以下不属于数据清洗范畴的操作是?

A.填充缺失的用户年龄字段

B.将“2023/01/01”统一为“2023-01-01”

C.对用户评论进行情感分析

D.删除重复的订单记录

答案:C

解析:数据清洗主要处理数据质量问题(缺失、格式错误、重复、异常),情感分析属于数据挖掘或自然语言处理,不属于清洗范畴,因此C错误。

以下哪种分布式计算框架支持迭代计算(如机器学习训练)?

A.MapReduce

B.Spark

C.Storm

D.Flume

答案:B

解析:Spark的RDD支持内存计算,适合迭代算法(如梯度下降);MapReduce每次计算需读写磁盘,效率低;Storm/Flink是流处理框架,主要处理实时数据流;Flume是日志采集工具,因此B正确。

大数据场景下,通常用以下哪个指标衡量数据的价值密度?

A.数据量(Volume)

B.数据类型(Variety)

C.有价值数据占比

D.数据产生速度(Velocity)

答案:C

解析:大数据的“4V”特性中,价值密度(Value)指有价值数据在总数据中的占比(如监控视频中仅几秒有有效信息),因此C正确。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hado

文档评论(0)

1亿VIP精品文档

相关文档