2025年大数据工程师职业资格考试题库(附答案和详细解析)(1231).docxVIP

  • 4
  • 0
  • 约7.75千字
  • 约 11页
  • 2026-01-05 发布于江苏
  • 举报

2025年大数据工程师职业资格考试题库(附答案和详细解析)(1231).docx

大数据工程师职业资格考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪个组件是Hadoop生态中负责资源管理和任务调度的核心框架?

A.HDFS

B.YARN

C.MapReduce

D.HBase

答案:B

解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的统一管理和任务调度;HDFS是分布式文件系统(A错误);MapReduce是计算框架(C错误);HBase是分布式列式数据库(D错误)。

Spark中RDD(弹性分布式数据集)的核心特性不包括?

A.不可变

B.可分区

C.自动持久化

D.容错性

答案:C

解析:RDD具有不可变(A正确)、可分区(B正确)、容错性(通过血统Lineage实现,D正确)等特性;但RDD默认不自动持久化,需显式调用cache()或persist()方法(C错误)。

Kafka中用于标识消息所属逻辑分组的概念是?

A.Partition

B.Topic

C.ConsumerGroup

D.Offset

答案:B

解析:Topic是Kafka中消息的逻辑分类(B正确);Partition是物理存储单元(A错误);ConsumerGroup是消费者的分组(C错误);Offset是消息在分区中的位置(D错误)。

Hive中默认的存储格式是?

A.TextFile

B.ORC

C.Parquet

D.SequenceFile

答案:A

解析:Hive默认使用文本格式(TextFile)存储数据(A正确);ORC和Parquet是列式存储格式(B、C错误);SequenceFile是Hadoop的二进制文件格式(D错误)。

以下哪个工具属于实时数据处理框架?

A.Hive

B.SparkSQL

C.Flink

D.Pig

答案:C

解析:Flink是专为实时流处理设计的框架(C正确);Hive是离线数据仓库工具(A错误);SparkSQL主要用于批处理和准实时(B错误);Pig是基于MapReduce的脚本语言(D错误)。

数据仓库(DW)与数据库(DB)的核心区别在于?

A.数据量大小

B.事务处理vs分析处理

C.结构化程度

D.存储介质

答案:B

解析:数据库支持OLTP(在线事务处理),数据仓库支持OLAP(在线分析处理)(B正确);数据量、结构化程度和存储介质并非核心区别(A、C、D错误)。

以下哪个指标用于衡量数据质量的完整性?

A.字段缺失率

B.数据重复率

C.数值一致性

D.业务规则匹配度

答案:A

解析:完整性指数据是否存在缺失,字段缺失率直接反映这一指标(A正确);重复率衡量冗余(B错误);一致性衡量逻辑统一(C错误);规则匹配度衡量合规性(D错误)。

Spark中,将RDD转换为DataFrame的关键依赖是?

A.Schema信息

B.分区数

C.持久化级别

D.并行度

答案:A

解析:DataFrame是带有Schema的RDD,转换时需明确定义列名和数据类型(A正确);分区数、持久化级别和并行度影响性能但非关键(B、C、D错误)。

以下哪项不是ZooKeeper的典型应用场景?

A.分布式锁

B.元数据管理

C.消息队列

D.集群节点监控

答案:C

解析:ZooKeeper用于分布式协调(如锁、元数据、节点监控),消息队列是Kafka等的场景(C错误)。

数据倾斜(DataSkew)在分布式计算中的典型表现是?

A.部分任务执行时间远长于其他任务

B.集群内存整体不足

C.网络带宽占用过高

D.所有任务执行时间均匀

答案:A

解析:数据倾斜指数据分布不均,导致部分分区数据量过大,对应任务执行缓慢(A正确);内存不足、带宽高是资源问题(B、C错误);任务时间均匀是正常现象(D错误)。

二、多项选择题(共10题,每题2分,共20分)

以下属于Hadoop生态中分布式存储系统的有?

A.HDFS

B.HBase

C.Cassandra

D.Redis

答案:AB

解析:HDFS(Hadoop分布式文件系统)和HBase(基于HDFS的列式数据库)属于Hadoop生态存储系统(A、B正确);Cassandra是独立NoSQL(C错误);Redis是内存数据库(D错误)。

Spark的持久化级别包括?

A.MEMORY_ONLY

B.MEMORY_AND_DISK

C.DISK_ONLY

D.MEMORY_ONLY_SER

答案:ABCD

解析:Spark支持多种持久化级别,包括纯内存(MEMORY_ONLY)、内存+磁盘(MEMORY_AND_DISK)、纯磁盘(DISK_ONLY)、内

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档