2026年大数据工程师职业资格考试题库(附答案和详细解析)(0108).docxVIP

  • 1
  • 0
  • 约6.74千字
  • 约 10页
  • 2026-02-03 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0108).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Hadoop生态中负责分布式存储的核心组件?

A.YARN

B.HDFS

C.MapReduce

D.Hive

答案:B

解析:Hadoop核心组件中,HDFS(Hadoop分布式文件系统)负责分布式存储,YARN负责资源管理,MapReduce是计算框架,Hive是数据仓库工具。因此正确答案为B。

Spark中RDD(弹性分布式数据集)的核心特性是?

A.数据可变性

B.内存计算框架

C.不可变分布式集合

D.实时流处理能力

答案:C

解析:RDD是Spark的核心抽象,其核心特性是不可变性(一旦创建不可修改)和分布式(存储在集群节点)。内存计算是Spark的优势但非RDD特性,实时流处理由SparkStreaming实现。因此正确答案为C。

数据仓库(DataWarehouse)的主要应用场景是?

A.在线事务处理(OLTP)

B.在线分析处理(OLAP)

C.实时数据写入

D.小规模数据查询

答案:B

解析:数据仓库面向分析型场景(OLAP),支持复杂查询和多维分析;OLTP是数据库的核心场景(如MySQL)。因此正确答案为B。

Kafka中用于标识消息存储位置的核心概念是?

A.消费者组(ConsumerGroup)

B.分区(Partition)

C.主题(Topic)

D.偏移量(Offset)

答案:D

解析:Kafka中每个消息在分区内的唯一位置由偏移量(Offset)标识;主题是消息的逻辑分类,分区是物理存储单元,消费者组用于消费负载均衡。因此正确答案为D。

以下哪项不属于分布式计算框架?

A.HadoopMapReduce

B.Spark

C.HBase

D.Flink

答案:C

解析:HBase是分布式列式数据库(NoSQL),属于存储层;MapReduce、Spark、Flink均为计算框架。因此正确答案为C。

数据清洗中处理缺失值的常用方法不包括?

A.删除缺失值所在行

B.用均值/中位数填充

C.用随机数填充

D.回归模型预测填充

答案:C

解析:数据清洗中缺失值处理需基于业务逻辑,随机数填充会破坏数据分布,通常不采用;其他选项均为合理方法。因此正确答案为C。

Hive的本质是?

A.分布式数据库

B.数据仓库工具

C.内存计算引擎

D.消息队列

答案:B

解析:Hive是基于Hadoop的数据仓库工具,通过SQL-like语句(HiveQL)操作HDFS数据,本质是将SQL转换为MapReduce任务,并非数据库。因此正确答案为B。

以下哪项是Flink的时间类型?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.以上都是

答案:D

解析:Flink支持三种时间类型:事件时间(数据产生时间)、处理时间(系统处理时间)、摄入时间(数据进入Flink的时间)。因此正确答案为D。

以下哪项不是HBase的特点?

A.适合实时随机读写

B.支持SQL查询

C.列式存储

D.高扩展性

答案:B

解析:HBase是NoSQL数据库,不支持标准SQL(需通过Phoenix等中间件实现),其特点包括列式存储、高扩展性、实时读写。因此正确答案为B。

以下哪项是Spark中转换操作(Transformation)的典型特征?

A.立即触发计算

B.惰性执行

C.直接输出结果

D.操作不可链式调用

答案:B

解析:Spark转换操作(如map、filter)不会立即执行,而是生成新的RDD并记录计算逻辑(惰性执行),行动操作(如count、collect)才会触发计算。因此正确答案为B。

二、多项选择题(共10题,每题2分,共20分)

以下属于分布式文件系统的有?

A.HDFS

B.HBase

C.Ceph

D.MongoDB

答案:AC

解析:HDFS(Hadoop)和Ceph均为分布式文件系统;HBase是分布式数据库,MongoDB是文档型数据库。因此正确答案为AC。

Spark的部署模式包括?

A.Standalone

B.YARN

C.Mesos

D.Local

答案:ABC

解析:Spark支持Standalone(独立集群)、YARN(Hadoop资源管理)、Mesos(通用资源管理)三种分布式部署模式;Local是本地单节点模式,不属于生产环境部署模式。因此正确答案为ABC。

数据湖(DataLake)的典型特点包括?

A.存储原始数据(RawData)

B.支持多格式(结构化/非结构化)

C.严格的模式设计(Sche

文档评论(0)

1亿VIP精品文档

相关文档