2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1222）.docxVIP

下载本文档

1
0
约7.4千字
约 11页
2026-02-07 发布于江苏
举报

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1222）.docx

大数据工程师职业资格认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪个组件是Hadoop分布式文件系统（HDFS）的主节点？

A.DataNode

B.NameNode

C.SecondaryNameNode

D.ResourceManager

答案：B

解析：HDFS采用主从架构，主节点（NameNode）负责管理文件系统元数据（如文件目录、块位置），从节点（DataNode）负责存储数据块。SecondaryNameNode是NameNode的辅助节点，并非主节点；ResourceManager是YARN的组件。

关于Kafka的核心概念，以下描述错误的是？

A.Topic是消息的逻辑分类

B.Partition是Topic的物理分片

C.ConsumerGroup中的消费者共同消费一个Partition

D.Offset表示消息在Partition中的位置

答案：C

解析：Kafka中，一个Partition只能被ConsumerGroup中的一个消费者消费（避免重复消费），但一个消费者可以消费多个Partition。其他选项均正确。

以下哪种计算框架更适合处理毫秒级延迟的实时流数据？

A.SparkSQL

B.Hive

C.Flink

D.MapReduce

答案：C

解析：Flink是专门设计的流处理框架，支持事件时间、状态管理和毫秒级延迟处理；SparkSQL和Hive主要用于批处理，MapReduce延迟更高（分钟级）。

数据清洗中处理缺失值的常用方法不包括？

A.删除缺失值所在行

B.用均值/中位数填充

C.用回归模型预测填充

D.直接保留缺失值用于分析

答案：D

解析：缺失值会导致分析结果偏差，需处理（删除、填充或插值），直接保留不符合数据清洗要求。

HBase的存储模型是？

A.行式存储

B.列式存储

C.键值对存储

D.文档存储

答案：B

解析：HBase基于GoogleBigtable设计，采用列式存储，按列族（ColumnFamily）组织数据，适合高并发随机读写。

以下哪个指标用于衡量分布式系统的容错能力？

A.TPS（事务每秒处理数）

B.吞吐量（Throughput）

C.可用性（Availability）

D.延迟（Latency）

答案：C

解析：可用性指系统在故障时仍能提供服务的能力（如通过冗余设计），是容错的核心指标；TPS和吞吐量衡量性能，延迟衡量响应时间。

SparkRDD的“宽依赖”会导致？

A.本地计算无需Shuffle

B.父RDD的一个分区对应子RDD的多个分区

C.计算结果直接缓存

D.仅需窄依赖即可完成计算

答案：B

解析：宽依赖（如groupByKey）会导致Shuffle操作，父RDD的一个分区数据会被分发到子RDD的多个分区；窄依赖（如map）无Shuffle。

以下哪个工具用于Hadoop集群的资源管理？

A.HDFS

B.YARN

C.Hive

D.ZooKeeper

答案：B

解析：YARN（YetAnotherResourceNegotiator）是Hadoop的资源管理系统，负责分配计算资源（CPU、内存）给应用程序；HDFS是存储，Hive是数据仓库，ZooKeeper是协调服务。

数据湖（DataLake）的核心特点是？

A.严格的模式设计（Schema-on-Write）

B.仅存储结构化数据

C.支持原始数据的长期存储

D.高事务性（ACID）

答案：C

解析：数据湖支持多种数据类型（结构化、半结构化、非结构化）的原始数据存储，采用模式延迟（Schema-on-Read）；高事务性是数据仓库的特点。

以下哪种场景最适合使用实时计算？

A.每日销售报表生成

B.用户行为实时分析（如实时推荐）

C.历史数据归档

D.季度财务数据汇总

答案：B

解析：实时计算需处理流数据并快速输出结果（如用户点击流的实时推荐），其他选项为批处理场景。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hadoop生态系统的组件有？（）

A.HDFS

B.Hive

C.Spark

D.Kafka

答案：AB

解析：Hadoop生态核心包括HDFS（存储）、YARN（资源管理）、MapReduce（计算）；Hive是基于Hadoop的数据仓库工具。Spark和Kafka是独立的大数据工具，不属于Hadoop原生生态。

Flink支持的时间类型包括？（）

A.事件时间（EventTime）

B.处理时间（ProcessingTime）

C.摄入时间（IngestionTime）

D.窗口时间（WindowTime）

答案：

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格认证考试题库（附答案和详细解析）（1222）.docxVIP