2026年大数据工程师职业资格考试题库（附答案和详细解析）（0130）.docxVIP

下载本文档

0
0
约8.07千字
约 11页
2026-02-15 发布于上海
举报

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0130）.docx

大数据工程师职业资格考试试卷

一、单项选择题（共10题，每题1分，共10分）

HDFS默认的块大小是以下哪一项？

A.32MB

B.64MB

C.128MB

D.256MB

答案：C

解析：HDFS设计时为了减少NameNode内存占用（存储块元数据）和支持大文件高效处理，默认块大小设置为128MB（Hadoop2.x及以上版本）。选项A是早期Hadoop1.x的默认值（64MB），B为干扰项，D不符合官方设定。

以下哪项不是SparkRDD的特性？

A.不可变（Immutable）

B.支持血统（Lineage）

C.自动容错

D.直接存储结构化数据

答案：D

解析：RDD是弹性分布式数据集，特性包括不可变性、通过血统（Lineage）实现容错、基于内存的计算，但RDD本身不直接存储结构化数据（结构化数据处理由DataFrame/Dataset负责）。D选项混淆了RDD与DataFrame的功能。

Kafka中用于标识消息在分区中位置的是？

A.Offset

B.Partition

C.Topic

D.ConsumerGroup

答案：A

解析：Offset是消息在分区中的唯一顺序号，用于消费者记录消费位置；Partition是主题的分片；Topic是消息分类标识；ConsumerGroup是消费者的逻辑分组。因此正确答案为A。

以下哪项属于NoSQL数据库的典型应用场景？

A.银行核心交易系统（需强事务）

B.社交平台用户动态实时存储（高并发写）

C.企业ERP系统（复杂SQL查询）

D.财务报表统计（精确聚合计算）

答案：B

解析：NoSQL数据库（如HBase、Cassandra）适合高并发写、海量数据存储场景；而强事务、复杂SQL、精确聚合是关系型数据库（如MySQL）的优势。B选项符合NoSQL特性。

Flink中用于处理乱序事件的核心机制是？

A.窗口（Window）

B.水位线（Watermark）

C.状态（State）

D.检查点（Checkpoint）

答案：B

解析：水位线（Watermark）是Flink处理乱序事件的关键机制，通过设定延迟时间戳阈值，告知系统“当前时间之前的事件已全部到达”。窗口用于数据分组，状态用于存储中间结果，检查点用于容错，因此选B。

数据仓库（DW）与数据库（DB）的核心区别是？

A.数据模型：DW是OLTP，DB是OLAP

B.数据时效：DW存储实时数据，DB存储历史数据

C.设计目标：DW支持分析决策，DB支持事务处理

D.查询类型：DW使用简单查询，DB使用复杂查询

答案：C

解析：数据仓库（DW）面向分析（OLAP），支持复杂查询和历史数据统计；数据库（DB）面向事务（OLTP），支持高频读写和实时交易。C选项正确描述了设计目标的差异。

以下哪项是Hive的核心功能？

A.实时流数据处理

B.分布式文件存储

C.基于SQL的大数据分析

D.内存计算框架

答案：C

解析：Hive是基于Hadoop的大数据分析工具，提供HiveQL（类SQL）接口，将SQL转换为MapReduce任务执行。实时处理由Flink/SparkStreaming完成，存储由HDFS负责，内存计算是Spark的特性，因此选C。

以下哪个指标用于衡量数据质量的“完整性”？

A.字段缺失率

B.数据重复率

C.数值合理性（如年龄0）

D.数据更新频率

答案：A

解析：数据完整性指数据是否存在缺失（如字段为空），用缺失率衡量；重复率是一致性指标，合理性是准确性指标，更新频率是时效性指标。因此选A。

机器学习中，“过拟合”的典型表现是？

A.训练集和测试集准确率都低

B.训练集准确率高，测试集准确率低

C.训练集准确率低，测试集准确率高

D.训练集和测试集准确率都高

答案：B

解析：过拟合指模型在训练数据上表现很好（高准确率），但对新数据（测试集）泛化能力差（低准确率）。A是欠拟合表现，D是理想状态，因此选B。

以下哪项是ZooKeeper的核心功能？

A.分布式协调服务

B.分布式计算框架

C.分布式消息队列

D.分布式数据库

答案：A

解析：ZooKeeper是分布式协调服务，用于实现集群管理（如Master选举、配置同步）、分布式锁等。计算框架是Spark/Hadoop，消息队列是Kafka，数据库是HBase，因此选A。

二、多项选择题（共10题，每题2分，共20分）

以下属于HBase特性的有？（至少2个正确选项）

A.列式存储

B.支持ACID事务（全表）

C.高并发写

D.稀疏表（允许列缺失）

答案：ACD

解析：HBase是列式存储数据库，支持高并发写入（基于LSM树），表结构稀疏（行内列

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年大数据工程师职业资格考试题库（附答案和详细解析）（0130）.docxVIP