2025年大数据工程师职业资格考试题库（附答案和详细解析）（1231）.docxVIP

下载本文档

4
0
约7.75千字
约 11页
2026-01-05 发布于江苏
举报

2025年大数据工程师职业资格考试题库（附答案和详细解析）（1231）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

以下哪个组件是Hadoop生态中负责资源管理和任务调度的核心框架？

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案：B

解析：YARN（YetAnotherResourceNegotiator）是Hadoop的资源管理系统，负责集群资源的统一管理和任务调度；HDFS是分布式文件系统（A错误）；MapReduce是计算框架（C错误）；HBase是分布式列式数据库（D错误）。

Spark中RDD（弹性分布式数据集）的核心特性不包括？

A.不可变

B.可分区

C.自动持久化

D.容错性

答案：C

解析：RDD具有不可变（A正确）、可分区（B正确）、容错性（通过血统Lineage实现，D正确）等特性；但RDD默认不自动持久化，需显式调用cache()或persist()方法（C错误）。

Kafka中用于标识消息所属逻辑分组的概念是？

A.Partition

B.Topic

C.ConsumerGroup

D.Offset

答案：B

解析：Topic是Kafka中消息的逻辑分类（B正确）；Partition是物理存储单元（A错误）；ConsumerGroup是消费者的分组（C错误）；Offset是消息在分区中的位置（D错误）。

Hive中默认的存储格式是？

A.TextFile

B.ORC

C.Parquet

D.SequenceFile

答案：A

解析：Hive默认使用文本格式（TextFile）存储数据（A正确）；ORC和Parquet是列式存储格式（B、C错误）；SequenceFile是Hadoop的二进制文件格式（D错误）。

以下哪个工具属于实时数据处理框架？

A.Hive

B.SparkSQL

C.Flink

D.Pig

答案：C

解析：Flink是专为实时流处理设计的框架（C正确）；Hive是离线数据仓库工具（A错误）；SparkSQL主要用于批处理和准实时（B错误）；Pig是基于MapReduce的脚本语言（D错误）。

数据仓库（DW）与数据库（DB）的核心区别在于？

A.数据量大小

B.事务处理vs分析处理

C.结构化程度

D.存储介质

答案：B

解析：数据库支持OLTP（在线事务处理），数据仓库支持OLAP（在线分析处理）（B正确）；数据量、结构化程度和存储介质并非核心区别（A、C、D错误）。

以下哪个指标用于衡量数据质量的完整性？

A.字段缺失率

B.数据重复率

C.数值一致性

D.业务规则匹配度

答案：A

解析：完整性指数据是否存在缺失，字段缺失率直接反映这一指标（A正确）；重复率衡量冗余（B错误）；一致性衡量逻辑统一（C错误）；规则匹配度衡量合规性（D错误）。

Spark中，将RDD转换为DataFrame的关键依赖是？

A.Schema信息

B.分区数

C.持久化级别

D.并行度

答案：A

解析：DataFrame是带有Schema的RDD，转换时需明确定义列名和数据类型（A正确）；分区数、持久化级别和并行度影响性能但非关键（B、C、D错误）。

以下哪项不是ZooKeeper的典型应用场景？

A.分布式锁

B.元数据管理

C.消息队列

D.集群节点监控

答案：C

解析：ZooKeeper用于分布式协调（如锁、元数据、节点监控），消息队列是Kafka等的场景（C错误）。

数据倾斜（DataSkew）在分布式计算中的典型表现是？

A.部分任务执行时间远长于其他任务

B.集群内存整体不足

C.网络带宽占用过高

D.所有任务执行时间均匀

答案：A

解析：数据倾斜指数据分布不均，导致部分分区数据量过大，对应任务执行缓慢（A正确）；内存不足、带宽高是资源问题（B、C错误）；任务时间均匀是正常现象（D错误）。

二、多项选择题（共10题，每题2分，共20分）

以下属于Hadoop生态中分布式存储系统的有？

A.HDFS

B.HBase

C.Cassandra

D.Redis

答案：AB

解析：HDFS（Hadoop分布式文件系统）和HBase（基于HDFS的列式数据库）属于Hadoop生态存储系统（A、B正确）；Cassandra是独立NoSQL（C错误）；Redis是内存数据库（D错误）。

Spark的持久化级别包括？

A.MEMORY_ONLY

B.MEMORY_AND_DISK

C.DISK_ONLY

D.MEMORY_ONLY_SER

答案：ABCD

解析：Spark支持多种持久化级别，包括纯内存（MEMORY_ONLY）、内存+磁盘（MEMORY_AND_DISK）、纯磁盘（DISK_ONLY）、内

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年大数据工程师职业资格考试题库（附答案和详细解析）（1231）.docxVIP