2026年大数据工程师职业资格考试题库(附答案和详细解析)(0115).docxVIP

  • 1
  • 0
  • 约9.16千字
  • 约 12页
  • 2026-02-09 发布于上海
  • 举报

2026年大数据工程师职业资格考试题库(附答案和详细解析)(0115).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Hadoop生态中负责分布式资源管理的核心组件?

A.HBase

B.YARN

C.Hive

D.Spark

答案:B

解析:Hadoop生态的核心组件包括HDFS(分布式存储)、YARN(资源管理与任务调度)和MapReduce(分布式计算框架)。选项A(HBase)是列式存储数据库,C(Hive)是数据仓库工具,D(Spark)是独立的计算框架,均不负责资源管理,因此正确答案为B。

下列哪项不属于Spark的核心抽象?

A.RDD

B.DataFrame

C.Dataset

D.HDFS

答案:D

解析:Spark的核心抽象包括RDD(弹性分布式数据集)、DataFrame(结构化数据)和Dataset(强类型数据集)。HDFS是Hadoop的分布式文件系统,属于存储层,并非Spark的核心抽象,因此正确答案为D。

Kafka中用于标识消息在分区中位置的是?

A.Offset

B.Partition

C.Topic

D.ConsumerGroup

答案:A

解析:Kafka的消息在分区内通过Offset(偏移量)唯一标识位置;Partition(分区)是Topic的物理分割单位,Topic(主题)是消息的逻辑分类,ConsumerGroup(消费者组)用于实现消息的广播或负载均衡。因此正确答案为A。

以下哪种场景最适合使用HBase?

A.实时查询海量稀疏数据

B.离线批处理日志文件

C.关系型数据库的OLTP业务

D.实时计算流数据

答案:A

解析:HBase是列式存储的NoSQL数据库,适合高并发、低延迟的海量稀疏数据实时查询(如用户行为日志);离线批处理通常用HadoopMapReduce或Spark,OLTP业务多用MySQL等关系型数据库,实时计算用Flink或SparkStreaming。因此正确答案为A。

数据仓库(DataWarehouse)的核心特性是?

A.面向事务、实时更新

B.面向主题、集成、非易失、时变

C.支持高并发写入

D.存储非结构化数据

答案:B

解析:数据仓库的四大特性是面向主题(按业务主题组织)、集成(多源数据整合)、非易失(历史数据只读)、时变(包含时间维度)。面向事务是OLTP数据库的特性,高并发写入是OLTP或缓存的特性,非结构化数据存储是数据湖的特性。因此正确答案为B。

Flink中用于处理时间窗口的核心概念是?

A.Checkpoint

B.Window

C.State

D.Watermark

答案:B

解析:Flink通过Window(窗口)将无限流划分为有限的处理单元;Checkpoint是容错机制,State是状态管理,Watermark是处理乱序数据的时间戳对齐机制。因此正确答案为B。

以下哪项不属于数据清洗的常见操作?

A.缺失值填充

B.异常值检测

C.数据标准化

D.数据抽样

答案:D

解析:数据清洗主要解决数据质量问题,包括缺失值填充、异常值检测、格式修正等;数据抽样属于数据预处理中的样本选择,用于减少计算量或平衡数据集,不属于清洗操作。因此正确答案为D。

分布式系统中,CAP定理指的是?

A.一致性、可用性、分区容错性

B.一致性、原子性、持久性

C.并发、原子性、分区容错性

D.一致性、可用性、事务性

答案:A

解析:CAP定理指出分布式系统无法同时满足一致性(Consistency)、可用性(Availability)和分区容错性(PartitionTolerance),只能三选二。B是ACID特性,C和D为干扰项。因此正确答案为A。

以下哪种数据库属于列式存储?

A.MySQL

B.Redis

C.HBase

D.MongoDB

答案:C

解析:HBase基于GoogleBigtable设计,采用列式存储;MySQL是行式关系型数据库,Redis是键值存储,MongoDB是文档型数据库。因此正确答案为C。

元数据(Metadata)不包含以下哪类信息?

A.数据字段含义

B.数据存储位置

C.数据更新频率

D.数据具体值

答案:D

解析:元数据是“关于数据的数据”,包括字段含义、存储位置、更新频率、数据血缘等描述性信息;数据具体值属于原始数据内容,不属于元数据。因此正确答案为D。

二、多项选择题(共10题,每题2分,共20分)

HDFS的主要特性包括?()

A.高容错性(通过副本机制)

B.适合存储大量小文件

C.主从架构(NameNode/DataNode)

D.支持低延迟数据访问

答案:AC

解析:HDFS设计目标是存储大文件(如GB/TB级),通过多副本机制

文档评论(0)

1亿VIP精品文档

相关文档