- 1
- 0
- 约7.4千字
- 约 11页
- 2026-02-07 发布于江苏
- 举报
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪个组件是Hadoop分布式文件系统(HDFS)的主节点?
A.DataNode
B.NameNode
C.SecondaryNameNode
D.ResourceManager
答案:B
解析:HDFS采用主从架构,主节点(NameNode)负责管理文件系统元数据(如文件目录、块位置),从节点(DataNode)负责存储数据块。SecondaryNameNode是NameNode的辅助节点,并非主节点;ResourceManager是YARN的组件。
关于Kafka的核心概念,以下描述错误的是?
A.Topic是消息的逻辑分类
B.Partition是Topic的物理分片
C.ConsumerGroup中的消费者共同消费一个Partition
D.Offset表示消息在Partition中的位置
答案:C
解析:Kafka中,一个Partition只能被ConsumerGroup中的一个消费者消费(避免重复消费),但一个消费者可以消费多个Partition。其他选项均正确。
以下哪种计算框架更适合处理毫秒级延迟的实时流数据?
A.SparkSQL
B.Hive
C.Flink
D.MapReduce
答案:C
解析:Flink是专门设计的流处理框架,支持事件时间、状态管理和毫秒级延迟处理;SparkSQL和Hive主要用于批处理,MapReduce延迟更高(分钟级)。
数据清洗中处理缺失值的常用方法不包括?
A.删除缺失值所在行
B.用均值/中位数填充
C.用回归模型预测填充
D.直接保留缺失值用于分析
答案:D
解析:缺失值会导致分析结果偏差,需处理(删除、填充或插值),直接保留不符合数据清洗要求。
HBase的存储模型是?
A.行式存储
B.列式存储
C.键值对存储
D.文档存储
答案:B
解析:HBase基于GoogleBigtable设计,采用列式存储,按列族(ColumnFamily)组织数据,适合高并发随机读写。
以下哪个指标用于衡量分布式系统的容错能力?
A.TPS(事务每秒处理数)
B.吞吐量(Throughput)
C.可用性(Availability)
D.延迟(Latency)
答案:C
解析:可用性指系统在故障时仍能提供服务的能力(如通过冗余设计),是容错的核心指标;TPS和吞吐量衡量性能,延迟衡量响应时间。
SparkRDD的“宽依赖”会导致?
A.本地计算无需Shuffle
B.父RDD的一个分区对应子RDD的多个分区
C.计算结果直接缓存
D.仅需窄依赖即可完成计算
答案:B
解析:宽依赖(如groupByKey)会导致Shuffle操作,父RDD的一个分区数据会被分发到子RDD的多个分区;窄依赖(如map)无Shuffle。
以下哪个工具用于Hadoop集群的资源管理?
A.HDFS
B.YARN
C.Hive
D.ZooKeeper
答案:B
解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责分配计算资源(CPU、内存)给应用程序;HDFS是存储,Hive是数据仓库,ZooKeeper是协调服务。
数据湖(DataLake)的核心特点是?
A.严格的模式设计(Schema-on-Write)
B.仅存储结构化数据
C.支持原始数据的长期存储
D.高事务性(ACID)
答案:C
解析:数据湖支持多种数据类型(结构化、半结构化、非结构化)的原始数据存储,采用模式延迟(Schema-on-Read);高事务性是数据仓库的特点。
以下哪种场景最适合使用实时计算?
A.每日销售报表生成
B.用户行为实时分析(如实时推荐)
C.历史数据归档
D.季度财务数据汇总
答案:B
解析:实时计算需处理流数据并快速输出结果(如用户点击流的实时推荐),其他选项为批处理场景。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态系统的组件有?()
A.HDFS
B.Hive
C.Spark
D.Kafka
答案:AB
解析:Hadoop生态核心包括HDFS(存储)、YARN(资源管理)、MapReduce(计算);Hive是基于Hadoop的数据仓库工具。Spark和Kafka是独立的大数据工具,不属于Hadoop原生生态。
Flink支持的时间类型包括?()
A.事件时间(EventTime)
B.处理时间(ProcessingTime)
C.摄入时间(IngestionTime)
D.窗口时间(WindowTime)
答案:
您可能关注的文档
- 2025年度中国电影总票房518.32亿.docx
- 2025年移动安全工程师考试题库(附答案和详细解析)(1231).docx
- 2026年商业分析师考试题库(附答案和详细解析)(0101).docx
- 2026年微软认证考试题库(附答案和详细解析)(0107).docx
- 2026年注册节能评估师考试题库(附答案和详细解析)(0103).docx
- 5的区域传输特征.docx
- 6名大学生坠落事故原因.docx
- “被套住了才开始研究”,买“新三金”理财的年轻人赚到钱了吗?.docx
- 三江源湿地退化的遥感监测与修复.docx
- 中医针灸的经络理论.docx
- 中国国家标准 GB/Z 37551.300-2026海洋能 波浪能、潮流能及其他水流能转换装置 第300部分:河流能转换装置发电性能评估.pdf
- GB/T 44937.3-2025集成电路 电磁发射测量 第3部分:辐射发射测量 表面扫描法.pdf
- 中国国家标准 GB/T 44937.3-2025集成电路 电磁发射测量 第3部分:辐射发射测量 表面扫描法.pdf
- 《GB/T 44937.3-2025集成电路 电磁发射测量 第3部分:辐射发射测量 表面扫描法》.pdf
- 中国国家标准 GB/T 44937.1-2025集成电路 电磁发射测量 第1部分:通用条件和定义.pdf
- GB/T 44937.1-2025集成电路 电磁发射测量 第1部分:通用条件和定义.pdf
- 《GB/T 44937.1-2025集成电路 电磁发射测量 第1部分:通用条件和定义》.pdf
- 中国国家标准 GB/T 4937.37-2025半导体器件 机械和气候试验方法 第37部分:采用加速度计的板级跌落试验方法.pdf
- 《GB/T 4937.10-2025半导体器件 机械和气候试验方法 第10部分:机械冲击 器件和组件》.pdf
- 中国国家标准 GB/T 44937.2-2025集成电路 电磁发射测量 第2部分:辐射发射测量TEM小室和宽带TEM小室法.pdf
原创力文档

文档评论(0)