2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1222).docxVIP

  • 1
  • 0
  • 约7.4千字
  • 约 11页
  • 2026-02-07 发布于江苏
  • 举报

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1222).docx

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪个组件是Hadoop分布式文件系统(HDFS)的主节点?

A.DataNode

B.NameNode

C.SecondaryNameNode

D.ResourceManager

答案:B

解析:HDFS采用主从架构,主节点(NameNode)负责管理文件系统元数据(如文件目录、块位置),从节点(DataNode)负责存储数据块。SecondaryNameNode是NameNode的辅助节点,并非主节点;ResourceManager是YARN的组件。

关于Kafka的核心概念,以下描述错误的是?

A.Topic是消息的逻辑分类

B.Partition是Topic的物理分片

C.ConsumerGroup中的消费者共同消费一个Partition

D.Offset表示消息在Partition中的位置

答案:C

解析:Kafka中,一个Partition只能被ConsumerGroup中的一个消费者消费(避免重复消费),但一个消费者可以消费多个Partition。其他选项均正确。

以下哪种计算框架更适合处理毫秒级延迟的实时流数据?

A.SparkSQL

B.Hive

C.Flink

D.MapReduce

答案:C

解析:Flink是专门设计的流处理框架,支持事件时间、状态管理和毫秒级延迟处理;SparkSQL和Hive主要用于批处理,MapReduce延迟更高(分钟级)。

数据清洗中处理缺失值的常用方法不包括?

A.删除缺失值所在行

B.用均值/中位数填充

C.用回归模型预测填充

D.直接保留缺失值用于分析

答案:D

解析:缺失值会导致分析结果偏差,需处理(删除、填充或插值),直接保留不符合数据清洗要求。

HBase的存储模型是?

A.行式存储

B.列式存储

C.键值对存储

D.文档存储

答案:B

解析:HBase基于GoogleBigtable设计,采用列式存储,按列族(ColumnFamily)组织数据,适合高并发随机读写。

以下哪个指标用于衡量分布式系统的容错能力?

A.TPS(事务每秒处理数)

B.吞吐量(Throughput)

C.可用性(Availability)

D.延迟(Latency)

答案:C

解析:可用性指系统在故障时仍能提供服务的能力(如通过冗余设计),是容错的核心指标;TPS和吞吐量衡量性能,延迟衡量响应时间。

SparkRDD的“宽依赖”会导致?

A.本地计算无需Shuffle

B.父RDD的一个分区对应子RDD的多个分区

C.计算结果直接缓存

D.仅需窄依赖即可完成计算

答案:B

解析:宽依赖(如groupByKey)会导致Shuffle操作,父RDD的一个分区数据会被分发到子RDD的多个分区;窄依赖(如map)无Shuffle。

以下哪个工具用于Hadoop集群的资源管理?

A.HDFS

B.YARN

C.Hive

D.ZooKeeper

答案:B

解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责分配计算资源(CPU、内存)给应用程序;HDFS是存储,Hive是数据仓库,ZooKeeper是协调服务。

数据湖(DataLake)的核心特点是?

A.严格的模式设计(Schema-on-Write)

B.仅存储结构化数据

C.支持原始数据的长期存储

D.高事务性(ACID)

答案:C

解析:数据湖支持多种数据类型(结构化、半结构化、非结构化)的原始数据存储,采用模式延迟(Schema-on-Read);高事务性是数据仓库的特点。

以下哪种场景最适合使用实时计算?

A.每日销售报表生成

B.用户行为实时分析(如实时推荐)

C.历史数据归档

D.季度财务数据汇总

答案:B

解析:实时计算需处理流数据并快速输出结果(如用户点击流的实时推荐),其他选项为批处理场景。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hadoop生态系统的组件有?()

A.HDFS

B.Hive

C.Spark

D.Kafka

答案:AB

解析:Hadoop生态核心包括HDFS(存储)、YARN(资源管理)、MapReduce(计算);Hive是基于Hadoop的数据仓库工具。Spark和Kafka是独立的大数据工具,不属于Hadoop原生生态。

Flink支持的时间类型包括?()

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.窗口时间(WindowTime)

答案:

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档