2026年大数据工程师职业资格考试题库(附答案和详细解析)(0102).docxVIP

  • 0
  • 0
  • 约9.14千字
  • 约 11页
  • 2026-01-25 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0102).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是HDFS的主节点,负责管理文件系统元数据?

A.DataNode

B.NameNode

C.SecondaryNameNode

D.ResourceManager

答案:B

解析:HDFS(Hadoop分布式文件系统)的核心架构包括NameNode(主节点,管理元数据、文件块映射)、DataNode(从节点,存储数据块)、SecondaryNameNode(辅助NameNode进行元数据检查点,非主节点)。ResourceManager是YARN的资源管理组件。因此正确答案为B。

Spark中用于表示不可变、可分区、容错分布式数据集的核心抽象是?

A.DataFrame

B.Dataset

C.RDD

D.DataSet

答案:C

解析:RDD(弹性分布式数据集)是Spark的核心抽象,具有不可变性、分区性和容错性;DataFrame和Dataset是RDD的高阶抽象,增加了结构化数据支持。因此正确答案为C。

Kafka的核心功能是?

A.分布式文件存储

B.实时流处理

C.高吞吐量消息队列

D.分布式数据库

答案:C

解析:Kafka是基于发布-订阅模式的高吞吐量分布式消息队列,主要用于实时数据流的传输;分布式文件存储是HDFS的功能,实时流处理是Flink/SparkStreaming的功能,分布式数据库如HBase。因此正确答案为C。

以下不属于NoSQL数据库的是?

A.HBase

B.MySQL

C.Cassandra

D.MongoDB

答案:B

解析:NoSQL(非关系型数据库)包括列式(HBase)、宽列(Cassandra)、文档型(MongoDB)等;MySQL是关系型数据库(RDBMS)。因此正确答案为B。

数据仓库(DataWarehouse)的核心特性是?

A.实时写入与高并发

B.面向事务处理

C.面向主题、集成、稳定、随时间变化

D.存储非结构化数据

答案:C

解析:数据仓库的四大特性是面向主题(围绕业务主题组织)、集成(多源数据整合)、稳定(读多写少)、随时间变化(时间维度记录);实时写入是OLTP数据库特性,面向事务是OLTP,非结构化存储是数据湖特性。因此正确答案为C。

以下哪项是Flink的时间语义?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.以上都是

答案:D

解析:Flink支持三种时间语义:事件时间(数据实际发生时间)、处理时间(数据被系统处理的时间)、摄入时间(数据进入Flink的时间)。因此正确答案为D。

Hive的核心功能是?

A.实时数据计算

B.将HQL转换为MapReduce任务

C.分布式键值存储

D.内存计算框架

答案:B

解析:Hive是基于Hadoop的数据仓库工具,通过HQL(类SQL语言)将查询转换为MapReduce/Spark任务执行;实时计算是Flink的功能,键值存储是HBase,内存计算是Spark。因此正确答案为B。

分布式系统中CAP定理的“C”指?

A.一致性(Consistency)

B.可用性(Availability)

C.分区容错性(PartitionTolerance)

D.完整性(Completeness)

答案:A

解析:CAP定理指分布式系统无法同时满足一致性(所有节点同一时间看到相同数据)、可用性(每次请求都能得到响应)、分区容错性(节点间通信中断时系统仍能运行),只能选其二。因此正确答案为A。

以下哪项是离线批处理框架?

A.Flink

B.SparkStreaming

C.MapReduce

D.KafkaStreams

答案:C

解析:MapReduce是典型的离线批处理框架;Flink、SparkStreaming、KafkaStreams主要用于实时或准实时流处理。因此正确答案为C。

数据湖(DataLake)主要存储的是?

A.结构化数据

B.半结构化和非结构化数据

C.清洗后的高质量数据

D.面向业务主题的聚合数据

答案:B

解析:数据湖以原始格式(如JSON、CSV、二进制)存储半结构化和非结构化数据,支持多类型数据;结构化数据是数据仓库的主要存储对象,清洗后的数据属于数据仓库或数据集市。因此正确答案为B。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hadoop生态核心组件的有?

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案:ABC

解析:Hadoop生态核心三组件是HDFS(存储)、YA

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档