2026年大数据工程师职业资格考试题库(附答案和详细解析)(0112).docxVIP

  • 1
  • 0
  • 约9.45千字
  • 约 13页
  • 2026-02-14 发布于江苏
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0112).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

HDFS默认的块大小是以下哪一项?

A.64MB

B.128MB

C.256MB

D.512MB

答案:B

解析:HDFS设计时为了降低元数据管理开销并优化大文件存储,默认块大小设置为128MB(Hadoop2.x及以上版本)。64MB是早期Hadoop1.x的默认值,256MB和512MB为可选配置参数,非默认值。

以下哪个组件是HBase的存储模型核心?

A.列族(ColumnFamily)

B.行键(RowKey)

C.时间戳(Timestamp)

D.单元格(Cell)

答案:A

解析:HBase采用列式存储,数据按列族组织,列族是物理存储的基本单位(所有列族成员数据存储在一起)。行键是逻辑主键,时间戳用于版本控制,单元格是具体数据单元,但核心存储模型由列族定义。

SparkRDD的特性不包括以下哪项?

A.不可变性(Immutable)

B.惰性计算(LazyEvaluation)

C.自动容错(AutomaticFaultTolerance)

D.实时流处理(Real-timeStreaming)

答案:D

解析:RDD是Spark的核心抽象,特性包括不可变(每次转换生成新RDD)、惰性计算(仅行动操作触发计算)、通过血统(Lineage)实现自动容错。实时流处理是SparkStreaming(基于RDD微批处理)或StructuredStreaming的功能,非RDD本身特性。

Kafka生产者的“acks=all”配置表示?

A.无需等待Broker确认

B.仅等待Leader确认

C.等待所有ISR副本确认

D.等待主从副本确认

答案:C

解析:Kafka生产者确认机制中,acks=all要求消息被写入所有同步副本(In-SyncReplicas,ISR)后返回确认,提供最强一致性保障。acks=0无需确认,acks=1仅Leader确认,acks=all是最高可靠性配置。

数据清洗的主要任务不包括?

A.处理缺失值(MissingValues)

B.纠正错误值(ErrorValues)

C.标准化数据格式(DataFormatting)

D.生成新特征(FeatureEngineering)

答案:D

解析:数据清洗是数据预处理阶段,主要任务是提升数据质量(缺失值填充、错误值修正、格式统一)。生成新特征属于特征工程,是建模前的高级处理步骤,不属于基础清洗任务。

Flink中“事件时间(EventTime)”的定义是?

A.数据被Flink处理的时间

B.数据在数据源产生的时间

C.数据到达Flink的时间

D.窗口触发计算的时间

答案:B

解析:Flink支持三种时间语义:事件时间(数据实际产生时间,由数据源记录的时间戳决定)、摄入时间(数据进入Flink的时间)、处理时间(算子处理数据的时间)。事件时间是最符合业务逻辑的时间语义,常用于需要按实际发生顺序处理的场景。

分布式系统中CAP定理的“C”指?

A.一致性(Consistency)

B.可用性(Availability)

C.分区容错性(PartitionTolerance)

D.完整性(Completeness)

答案:A

解析:CAP定理指出分布式系统无法同时满足一致性(所有节点同一时刻看到相同数据)、可用性(每次请求都能获得非错误响应)、分区容错性(系统在网络分区时仍能运行),只能三选二。

Hive的元数据默认存储在以下哪个数据库?

A.MySQL

B.Derby

C.PostgreSQL

D.Oracle

答案:B

解析:Hive元数据存储数据库支持MySQL、Derby等,默认使用内嵌的Derby数据库(仅适合测试环境)。生产环境通常配置为MySQL以支持多用户并发。

数据仓库的分层架构中,“DWB”通常指?

A.操作数据层(OperationalDataStore)

B.明细数据层(DetailWarehouseLayer)

C.汇总数据层(WarehouseBaseLayer)

D.数据集市层(DataMart)

答案:C

解析:典型数据仓库分层为ODS(原始数据层)、DWD(明细数据层)、DWB(汇总数据层,基于DWD做轻度聚合)、DM(数据集市层,面向业务主题)。DWB是“WarehouseBaseLayer”的缩写。

以下哪项是实时计算的典型场景?

A.每日用户活跃数统计

B.实时推荐系统

C.月度销售报表

D.历史数据归档

答案:B

解析:实时计算要求低延迟(通常毫秒级),适用于需要即时响应的场景(如实时推荐、实时风控

文档评论(0)

1亿VIP精品文档

相关文档