- 1
- 0
- 约9.16千字
- 约 12页
- 2026-02-09 发布于上海
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Hadoop生态中负责分布式资源管理的核心组件?
A.HBase
B.YARN
C.Hive
D.Spark
答案:B
解析:Hadoop生态的核心组件包括HDFS(分布式存储)、YARN(资源管理与任务调度)和MapReduce(分布式计算框架)。选项A(HBase)是列式存储数据库,C(Hive)是数据仓库工具,D(Spark)是独立的计算框架,均不负责资源管理,因此正确答案为B。
下列哪项不属于Spark的核心抽象?
A.RDD
B.DataFrame
C.Dataset
D.HDFS
答案:D
解析:Spark的核心抽象包括RDD(弹性分布式数据集)、DataFrame(结构化数据)和Dataset(强类型数据集)。HDFS是Hadoop的分布式文件系统,属于存储层,并非Spark的核心抽象,因此正确答案为D。
Kafka中用于标识消息在分区中位置的是?
A.Offset
B.Partition
C.Topic
D.ConsumerGroup
答案:A
解析:Kafka的消息在分区内通过Offset(偏移量)唯一标识位置;Partition(分区)是Topic的物理分割单位,Topic(主题)是消息的逻辑分类,ConsumerGroup(消费者组)用于实现消息的广播或负载均衡。因此正确答案为A。
以下哪种场景最适合使用HBase?
A.实时查询海量稀疏数据
B.离线批处理日志文件
C.关系型数据库的OLTP业务
D.实时计算流数据
答案:A
解析:HBase是列式存储的NoSQL数据库,适合高并发、低延迟的海量稀疏数据实时查询(如用户行为日志);离线批处理通常用HadoopMapReduce或Spark,OLTP业务多用MySQL等关系型数据库,实时计算用Flink或SparkStreaming。因此正确答案为A。
数据仓库(DataWarehouse)的核心特性是?
A.面向事务、实时更新
B.面向主题、集成、非易失、时变
C.支持高并发写入
D.存储非结构化数据
答案:B
解析:数据仓库的四大特性是面向主题(按业务主题组织)、集成(多源数据整合)、非易失(历史数据只读)、时变(包含时间维度)。面向事务是OLTP数据库的特性,高并发写入是OLTP或缓存的特性,非结构化数据存储是数据湖的特性。因此正确答案为B。
Flink中用于处理时间窗口的核心概念是?
A.Checkpoint
B.Window
C.State
D.Watermark
答案:B
解析:Flink通过Window(窗口)将无限流划分为有限的处理单元;Checkpoint是容错机制,State是状态管理,Watermark是处理乱序数据的时间戳对齐机制。因此正确答案为B。
以下哪项不属于数据清洗的常见操作?
A.缺失值填充
B.异常值检测
C.数据标准化
D.数据抽样
答案:D
解析:数据清洗主要解决数据质量问题,包括缺失值填充、异常值检测、格式修正等;数据抽样属于数据预处理中的样本选择,用于减少计算量或平衡数据集,不属于清洗操作。因此正确答案为D。
分布式系统中,CAP定理指的是?
A.一致性、可用性、分区容错性
B.一致性、原子性、持久性
C.并发、原子性、分区容错性
D.一致性、可用性、事务性
答案:A
解析:CAP定理指出分布式系统无法同时满足一致性(Consistency)、可用性(Availability)和分区容错性(PartitionTolerance),只能三选二。B是ACID特性,C和D为干扰项。因此正确答案为A。
以下哪种数据库属于列式存储?
A.MySQL
B.Redis
C.HBase
D.MongoDB
答案:C
解析:HBase基于GoogleBigtable设计,采用列式存储;MySQL是行式关系型数据库,Redis是键值存储,MongoDB是文档型数据库。因此正确答案为C。
元数据(Metadata)不包含以下哪类信息?
A.数据字段含义
B.数据存储位置
C.数据更新频率
D.数据具体值
答案:D
解析:元数据是“关于数据的数据”,包括字段含义、存储位置、更新频率、数据血缘等描述性信息;数据具体值属于原始数据内容,不属于元数据。因此正确答案为D。
二、多项选择题(共10题,每题2分,共20分)
HDFS的主要特性包括?()
A.高容错性(通过副本机制)
B.适合存储大量小文件
C.主从架构(NameNode/DataNode)
D.支持低延迟数据访问
答案:AC
解析:HDFS设计目标是存储大文件(如GB/TB级),通过多副本机制
原创力文档

文档评论(0)