- 4
- 0
- 约7.75千字
- 约 11页
- 2026-01-05 发布于江苏
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪个组件是Hadoop生态中负责资源管理和任务调度的核心框架?
A.HDFS
B.YARN
C.MapReduce
D.HBase
答案:B
解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的统一管理和任务调度;HDFS是分布式文件系统(A错误);MapReduce是计算框架(C错误);HBase是分布式列式数据库(D错误)。
Spark中RDD(弹性分布式数据集)的核心特性不包括?
A.不可变
B.可分区
C.自动持久化
D.容错性
答案:C
解析:RDD具有不可变(A正确)、可分区(B正确)、容错性(通过血统Lineage实现,D正确)等特性;但RDD默认不自动持久化,需显式调用cache()或persist()方法(C错误)。
Kafka中用于标识消息所属逻辑分组的概念是?
A.Partition
B.Topic
C.ConsumerGroup
D.Offset
答案:B
解析:Topic是Kafka中消息的逻辑分类(B正确);Partition是物理存储单元(A错误);ConsumerGroup是消费者的分组(C错误);Offset是消息在分区中的位置(D错误)。
Hive中默认的存储格式是?
A.TextFile
B.ORC
C.Parquet
D.SequenceFile
答案:A
解析:Hive默认使用文本格式(TextFile)存储数据(A正确);ORC和Parquet是列式存储格式(B、C错误);SequenceFile是Hadoop的二进制文件格式(D错误)。
以下哪个工具属于实时数据处理框架?
A.Hive
B.SparkSQL
C.Flink
D.Pig
答案:C
解析:Flink是专为实时流处理设计的框架(C正确);Hive是离线数据仓库工具(A错误);SparkSQL主要用于批处理和准实时(B错误);Pig是基于MapReduce的脚本语言(D错误)。
数据仓库(DW)与数据库(DB)的核心区别在于?
A.数据量大小
B.事务处理vs分析处理
C.结构化程度
D.存储介质
答案:B
解析:数据库支持OLTP(在线事务处理),数据仓库支持OLAP(在线分析处理)(B正确);数据量、结构化程度和存储介质并非核心区别(A、C、D错误)。
以下哪个指标用于衡量数据质量的完整性?
A.字段缺失率
B.数据重复率
C.数值一致性
D.业务规则匹配度
答案:A
解析:完整性指数据是否存在缺失,字段缺失率直接反映这一指标(A正确);重复率衡量冗余(B错误);一致性衡量逻辑统一(C错误);规则匹配度衡量合规性(D错误)。
Spark中,将RDD转换为DataFrame的关键依赖是?
A.Schema信息
B.分区数
C.持久化级别
D.并行度
答案:A
解析:DataFrame是带有Schema的RDD,转换时需明确定义列名和数据类型(A正确);分区数、持久化级别和并行度影响性能但非关键(B、C、D错误)。
以下哪项不是ZooKeeper的典型应用场景?
A.分布式锁
B.元数据管理
C.消息队列
D.集群节点监控
答案:C
解析:ZooKeeper用于分布式协调(如锁、元数据、节点监控),消息队列是Kafka等的场景(C错误)。
数据倾斜(DataSkew)在分布式计算中的典型表现是?
A.部分任务执行时间远长于其他任务
B.集群内存整体不足
C.网络带宽占用过高
D.所有任务执行时间均匀
答案:A
解析:数据倾斜指数据分布不均,导致部分分区数据量过大,对应任务执行缓慢(A正确);内存不足、带宽高是资源问题(B、C错误);任务时间均匀是正常现象(D错误)。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态中分布式存储系统的有?
A.HDFS
B.HBase
C.Cassandra
D.Redis
答案:AB
解析:HDFS(Hadoop分布式文件系统)和HBase(基于HDFS的列式数据库)属于Hadoop生态存储系统(A、B正确);Cassandra是独立NoSQL(C错误);Redis是内存数据库(D错误)。
Spark的持久化级别包括?
A.MEMORY_ONLY
B.MEMORY_AND_DISK
C.DISK_ONLY
D.MEMORY_ONLY_SER
答案:ABCD
解析:Spark支持多种持久化级别,包括纯内存(MEMORY_ONLY)、内存+磁盘(MEMORY_AND_DISK)、纯磁盘(DISK_ONLY)、内
您可能关注的文档
- 离婚过错方赔偿标准.docx
- “抖音买单”上线,支付宝、微信支付迎来新对手.docx
- 《劳动合同法》第四十条无过失性辞退的司法适用分歧.docx
- 2025年ESG分析师认证(CESGA)考试题库(附答案和详细解析)(1221).docx
- 2025年儿童发展指导师考试题库(附答案和详细解析)(1221).docx
- 2025年公共营养师考试题库(附答案和详细解析)(1220).docx
- 2025年广播电视编辑记者证考试题库(附答案和详细解析)(1228).docx
- 2025年国际物流师考试题库(附答案和详细解析)(1231).docx
- 2025年欧盟翻译认证(EUTranslator)考试题库(附答案和详细解析)(1222).docx
- 2025年新闻记者考试题库(附答案和详细解析)(1231).docx
- 2026年中国汽车五金材料行业市场数据调查、监测研究报告.docx
- 2026年中国间隙式圆盘全自动抛光机行业市场数据调查、监测研究报告.docx
- 2026年中国数字调光流动硅箱行业市场数据调查、监测研究报告.docx
- 2026年中国冲击电钻用耐久试验台行业市场数据调查、监测研究报告.docx
- 2026年中国电锭锭子行业市场数据调查、监测研究报告.docx
- 2026年中国电子签章系统软件行业市场数据调查、监测研究报告.docx
- 2025年学历类自考中国古代文学史(二)-学前儿童保育学参考题库含答案解析.docx
- 2025年事业单位工勤技能-宁夏-宁夏计算机信息处理员一级(高级技师)历年参考题典型考点含答案解析.docx
- 2026年中国帆形杯碟行业市场数据调查、监测研究报告.docx
- 2026年中国半圆铝柄压胶枪行业市场数据调查、监测研究报告.docx
原创力文档

文档评论(0)