2026年大数据工程师职业资格考试题库(附答案和详细解析)(0130).docxVIP

  • 0
  • 0
  • 约8.07千字
  • 约 11页
  • 2026-02-15 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0130).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

HDFS默认的块大小是以下哪一项?

A.32MB

B.64MB

C.128MB

D.256MB

答案:C

解析:HDFS设计时为了减少NameNode内存占用(存储块元数据)和支持大文件高效处理,默认块大小设置为128MB(Hadoop2.x及以上版本)。选项A是早期Hadoop1.x的默认值(64MB),B为干扰项,D不符合官方设定。

以下哪项不是SparkRDD的特性?

A.不可变(Immutable)

B.支持血统(Lineage)

C.自动容错

D.直接存储结构化数据

答案:D

解析:RDD是弹性分布式数据集,特性包括不可变性、通过血统(Lineage)实现容错、基于内存的计算,但RDD本身不直接存储结构化数据(结构化数据处理由DataFrame/Dataset负责)。D选项混淆了RDD与DataFrame的功能。

Kafka中用于标识消息在分区中位置的是?

A.Offset

B.Partition

C.Topic

D.ConsumerGroup

答案:A

解析:Offset是消息在分区中的唯一顺序号,用于消费者记录消费位置;Partition是主题的分片;Topic是消息分类标识;ConsumerGroup是消费者的逻辑分组。因此正确答案为A。

以下哪项属于NoSQL数据库的典型应用场景?

A.银行核心交易系统(需强事务)

B.社交平台用户动态实时存储(高并发写)

C.企业ERP系统(复杂SQL查询)

D.财务报表统计(精确聚合计算)

答案:B

解析:NoSQL数据库(如HBase、Cassandra)适合高并发写、海量数据存储场景;而强事务、复杂SQL、精确聚合是关系型数据库(如MySQL)的优势。B选项符合NoSQL特性。

Flink中用于处理乱序事件的核心机制是?

A.窗口(Window)

B.水位线(Watermark)

C.状态(State)

D.检查点(Checkpoint)

答案:B

解析:水位线(Watermark)是Flink处理乱序事件的关键机制,通过设定延迟时间戳阈值,告知系统“当前时间之前的事件已全部到达”。窗口用于数据分组,状态用于存储中间结果,检查点用于容错,因此选B。

数据仓库(DW)与数据库(DB)的核心区别是?

A.数据模型:DW是OLTP,DB是OLAP

B.数据时效:DW存储实时数据,DB存储历史数据

C.设计目标:DW支持分析决策,DB支持事务处理

D.查询类型:DW使用简单查询,DB使用复杂查询

答案:C

解析:数据仓库(DW)面向分析(OLAP),支持复杂查询和历史数据统计;数据库(DB)面向事务(OLTP),支持高频读写和实时交易。C选项正确描述了设计目标的差异。

以下哪项是Hive的核心功能?

A.实时流数据处理

B.分布式文件存储

C.基于SQL的大数据分析

D.内存计算框架

答案:C

解析:Hive是基于Hadoop的大数据分析工具,提供HiveQL(类SQL)接口,将SQL转换为MapReduce任务执行。实时处理由Flink/SparkStreaming完成,存储由HDFS负责,内存计算是Spark的特性,因此选C。

以下哪个指标用于衡量数据质量的“完整性”?

A.字段缺失率

B.数据重复率

C.数值合理性(如年龄0)

D.数据更新频率

答案:A

解析:数据完整性指数据是否存在缺失(如字段为空),用缺失率衡量;重复率是一致性指标,合理性是准确性指标,更新频率是时效性指标。因此选A。

机器学习中,“过拟合”的典型表现是?

A.训练集和测试集准确率都低

B.训练集准确率高,测试集准确率低

C.训练集准确率低,测试集准确率高

D.训练集和测试集准确率都高

答案:B

解析:过拟合指模型在训练数据上表现很好(高准确率),但对新数据(测试集)泛化能力差(低准确率)。A是欠拟合表现,D是理想状态,因此选B。

以下哪项是ZooKeeper的核心功能?

A.分布式协调服务

B.分布式计算框架

C.分布式消息队列

D.分布式数据库

答案:A

解析:ZooKeeper是分布式协调服务,用于实现集群管理(如Master选举、配置同步)、分布式锁等。计算框架是Spark/Hadoop,消息队列是Kafka,数据库是HBase,因此选A。

二、多项选择题(共10题,每题2分,共20分)

以下属于HBase特性的有?(至少2个正确选项)

A.列式存储

B.支持ACID事务(全表)

C.高并发写

D.稀疏表(允许列缺失)

答案:ACD

解析:HBase是列式存储数据库,支持高并发写入(基于LSM树),表结构稀疏(行内列

文档评论(0)

1亿VIP精品文档

相关文档