- 0
- 0
- 约8.67千字
- 约 11页
- 2026-02-04 发布于江苏
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下关于HDFS(Hadoop分布式文件系统)的描述中,正确的是()
A.HDFS默认块大小为32MB
B.NameNode负责存储数据块副本
C.HDFS适合存储大量小文件
D.数据块副本数默认配置为3
答案:D
解析:HDFS默认块大小为128MB(A错误);NameNode管理元数据,DataNode存储数据块副本(B错误);HDFS设计目标是处理大文件,小文件会占用过多NameNode内存(C错误);数据块副本数默认配置为3(D正确)。
Spark的运行模式中,独立于其他资源管理系统的是()
A.Standalone模式
B.YARN模式
C.Mesos模式
D.Kubernetes模式
答案:A
解析:Standalone是Spark自带的资源管理模式,不依赖外部系统(A正确);YARN、Mesos、Kubernetes均需依赖外部资源管理器(B/C/D错误)。
Kafka中用于标识消息在分区中位置的术语是()
A.GroupID
B.Offset
C.Partition
D.Topic
答案:B
解析:GroupID是消费者组标识(A错误);Offset是消息在分区中的偏移量(B正确);Partition是主题的分片(C错误);Topic是消息的逻辑分类(D错误)。
数据仓库分层中,存储原始未加工数据的层是()
A.ODS层(操作数据层)
B.DWD层(明细数据层)
C.DWS层(汇总数据层)
D.ADS层(应用数据层)
答案:A
解析:ODS层直接存储从业务系统抽取的原始数据(A正确);DWD层是清洗后的明细数据(B错误);DWS层是轻度汇总数据(C错误);ADS层是面向应用的结果数据(D错误)。
Flink流处理中,基于事件实际发生时间的时间类型是()
A.ProcessingTime(处理时间)
B.IngestionTime(摄入时间)
C.EventTime(事件时间)
D.WatermarkTime(水印时间)
答案:C
解析:EventTime是事件本身的时间戳(C正确);ProcessingTime是系统处理事件的时间(A错误);IngestionTime是事件进入Flink的时间(B错误);Watermark是用于处理乱序事件的机制(D错误)。
MapReduce作业中,Shuffle阶段的核心操作是()
A.输入数据分片
B.数据排序与分区
C.输出结果合并
D.任务调度分配
答案:B
解析:Shuffle阶段负责将Mapper输出的数据按Key分区并排序,传递给Reducer(B正确);输入分片属于InputFormat(A错误);结果合并属于Reducer输出(C错误);任务调度属于YARN(D错误)。
以下哪项是解决分布式计算中数据倾斜的常用方法?()
A.增加内存分配
B.降低任务并行度
C.关闭推测执行
D.对Key进行加盐处理
答案:D
解析:数据倾斜是由于部分Key数据量过大导致,加盐处理(如为Key添加随机前缀)可分散数据(D正确);增加内存无法解决数据分布不均(A错误);降低并行度会加剧倾斜(B错误);推测执行与倾斜无关(C错误)。
HBase数据模型中,用于唯一标识一行数据的是()
A.RowKey
B.ColumnFamily
C.Timestamp
D.Cell
答案:A
解析:RowKey是行的唯一标识(A正确);ColumnFamily是列的集合(B错误);Timestamp是版本标识(C错误);Cell是行键、列族、列名、时间戳的组合(D错误)。
机器学习特征工程中,将连续型特征转换为离散型特征的操作是()
A.特征归一化
B.特征编码
C.特征分箱
D.特征选择
答案:C
解析:特征分箱(如等距分箱)将连续值划分为区间(C正确);归一化是缩放特征范围(A错误);编码是处理类别变量(B错误);选择是筛选重要特征(D错误)。
以下属于数据脱敏技术的是()
A.数据加密
B.姓名替换为“某先生”
C.数据压缩
D.数据去重
答案:B
解析:数据脱敏是对敏感信息进行变形(如姓名替换)(B正确);加密是保护数据隐私但未改变内容(A错误);压缩是减小存储(C错误);去重是删除重复数据(D错误)。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态核心组件的有()
A.HDFS(分布式文件系统)
B.YARN(资源管理器)
C.Hive(数据仓库工具)
D.Kafka(消息队列)
答案:ABC
解析:Hadoop生态核心包括HDFS(存储)、YARN
您可能关注的文档
- 2025年广播电视播音员主持人资格证考试题库(附答案和详细解析)(1211).docx
- 2025年注册岩土工程师考试题库(附答案和详细解析)(1211).docx
- 2025年资产评估师职业资格考试题库(附答案和详细解析)(1231).docx
- 2026年企业人力资源管理师考试题库(附答案和详细解析)(0104).docx
- 2026年公益项目管理师考试题库(附答案和详细解析)(0105).docx
- 2026年宠物训导员考试题库(附答案和详细解析)(0107).docx
- 2026年康养管理师考试题库(附答案和详细解析)(0107).docx
- 2026年数据库系统工程师考试题库(附答案和详细解析)(0109).docx
- 2026年智能安防工程师考试题库(附答案和详细解析)(0103).docx
- 2026年注册农业工程师考试题库(附答案和详细解析)(0105).docx
- 《GB/T 21561.1-2025轨道交通 机车车辆 受电弓特性和试验 第1部分:机车车辆受电弓》.pdf
- 《GB/T 6346.2301-2025电子设备用固定电容器 第23-1部分:空白详细规范表面安装金属化聚萘二甲酸乙二醇酯膜介质直流固定电容器 评定水平EZ》.pdf
- 2026年中国城市建设史复习题200道含答案(基础题).docx
- 2026年注册会计师(CPA)考试题库200道及1套参考答案.docx
- 60103交通事故案卷文书 标准 ga 40-2018.pdf.pdf
- 小升初衔接第一讲:基础词汇与句型综合梳理与运用(基于Starters 14).docx
- 四级公路设计关键要素教学课件.pptx
- Unit7SectionA2a-2e课件鲁教版英语六年级下册.pptx
- 初中地理八年级:探秘台湾省环境与经济协同发展.docx
- Unit2Success单元重点单词单句写作练习课件-北师大版高中英语选择性(1).pptx
原创力文档

文档评论(0)