2025年大数据工程师职业资格考试题库(附答案和详细解析)(1227).docxVIP

  • 0
  • 0
  • 约8.7千字
  • 约 11页
  • 2026-02-01 发布于上海
  • 举报

2025年大数据工程师职业资格考试题库(附答案和详细解析)(1227).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

HDFS默认的块大小是以下哪一项?

A.64MB

B.128MB

C.256MB

D.512MB

答案:B

解析:HDFS设计为处理大文件,默认块大小为128MB(Hadoop2.x及以上版本),该设置可减少NameNode的元数据管理压力,同时适配磁盘传输效率。选项A是Hadoop1.x的默认块大小,C、D为常见自定义配置值,非默认。

Spark中RDD的“惰性计算”特性指的是?

A.所有操作立即执行

B.转换操作立即执行,行动操作延迟执行

C.转换操作延迟执行,行动操作触发计算

D.所有操作均延迟执行

答案:C

解析:RDD的转换操作(如map、filter)会构建计算图但不立即执行,仅当行动操作(如count、collect)被调用时,才会触发从初始RDD到目标RDD的全链路计算。选项A错误,B混淆了转换与行动的执行顺序,D忽略了行动操作的触发作用。

以下哪项不是Flink支持的时间类型?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.系统时间(SystemTime)

答案:D

解析:Flink定义了三种时间语义:事件时间(数据生成的实际时间)、处理时间(数据被处理的时间)、摄入时间(数据进入Flink系统的时间)。系统时间是操作系统的实时时间,不属于Flink的时间类型。

Hive的元数据默认存储在以下哪个数据库中?

A.MySQL

B.Derby

C.PostgreSQL

D.Oracle

答案:B

解析:Hive元数据默认使用内嵌的Derby数据库存储(单用户模式),生产环境中通常替换为MySQL或PostgreSQL以支持多用户并发。选项A、C、D为常见外部元数据库,非默认。

Kafka中消费者组(ConsumerGroup)的核心作用是?

A.提高消息发送吞吐量

B.实现消息的广播与负载均衡

C.保证消息的顺序性

D.管理生产者连接

答案:B

解析:消费者组通过将主题的分区分配给组内消费者,实现消息的负载均衡(同一分区的消息仅由组内一个消费者处理);不同消费者组订阅同一主题时,可实现消息的广播(每个组独立消费全量消息)。选项A是生产者的特性,C需依赖单分区+单消费者,D与生产者无关。

数据倾斜(DataSkew)最可能导致的问题是?

A.计算资源浪费

B.数据丢失

C.网络带宽不足

D.数据重复

答案:A

解析:数据倾斜指部分Key的记录数远多于其他Key,导致对应任务节点计算耗时过长,其他节点空闲,造成资源浪费。数据丢失(B)通常由存储故障引起,网络带宽(C)是集群固有属性,数据重复(D)与去重逻辑相关,均非数据倾斜直接后果。

以下哪项是数据仓库(DataWarehouse)的核心特性?

A.支持实时事务处理

B.面向主题(Subject-Oriented)

C.数据易失性(Volatile)

D.支持高频增删改

答案:B

解析:数据仓库的四大特性为面向主题、集成性、非易失性、时变性。面向事务(A)、易失性(C)、高频增删改(D)是OLTP数据库的特性。

OLAP(联机分析处理)与OLTP(联机事务处理)的主要区别是?

A.OLAP侧重历史数据分析,OLTP侧重实时交易

B.OLAP使用关系型数据库,OLTP使用NoSQL

C.OLAP数据量小,OLTP数据量大

D.OLAP支持高频写操作,OLTP支持复杂查询

答案:A

解析:OLAP(如数据仓库)用于复杂分析(多表关联、聚合),处理历史数据;OLTP(如业务数据库)用于日常交易(增删改查),处理实时数据。选项B错误,两者均可使用关系型数据库;C、D描述反了。

分布式系统中CAP定理的“C”指的是?

A.一致性(Consistency)

B.可用性(Availability)

C.分区容错性(PartitionTolerance)

D.正确性(Correctness)

答案:A

解析:CAP定理中,C(Consistency)指所有节点在同一时间看到相同的数据;A(Availability)指每个请求都能收到非错误响应;P(PartitionTolerance)指系统在网络分区时仍能运行。

机器学习中“特征工程”的主要目的是?

A.减少模型训练时间

B.提升模型对原始数据的表达能力

C.降低数据存储成本

D.避免过拟合

答案:B

解析:特征工程通过特征提取、选择、构造等操作,将原始数据转化为模型可高效利用的特征,核心目的是提升模型对业务问题的表达能力。减少训练时间(A)是模型优化的目标,降低存储成本

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档