- 0
- 0
- 约7.99千字
- 约 11页
- 2026-03-14 发布于上海
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Hadoop生态中负责分布式存储的核心组件?
A.MapReduce
B.HDFS
C.YARN
D.Hive
答案:B
解析:Hadoop核心组件包括HDFS(分布式文件系统,负责存储)、YARN(资源调度)和MapReduce(计算框架)。Hive是数据仓库工具。因此正确选项为B,其他选项分别对应计算、调度和上层应用。
以下哪种场景最适合使用SparkStreaming?
A.实时日志分析(秒级延迟)
B.历史数据批量统计(小时级)
C.高并发事务处理(毫秒级)
D.非结构化数据存储
答案:A
解析:SparkStreaming基于微批处理模型,适合秒级延迟的实时计算;历史批量统计更适合HadoopMapReduce;高并发事务处理是关系型数据库的场景;非结构化存储是HDFS的职责。因此选A。
数据清洗中处理“缺失值”的常用方法不包括?
A.删除缺失记录
B.用均值填充
C.用随机数填充
D.用模型预测填充
答案:C
解析:数据清洗中缺失值处理需保持数据逻辑一致性,随机数填充会破坏数据分布,通常不采用。其他选项均为合理方法(删除、均值/中位数填充、模型预测)。故选C。
分布式系统中“CAP定理”的三个特性不包括?
A.一致性(Consistency)
B.可用性(Availability)
C.分区容错性(PartitionTolerance)
D.原子性(Atomicity)
答案:D
解析:CAP定理指分布式系统中一致性、可用性、分区容错性三者无法同时满足,原子性是事务ACID特性之一,不属于CAP。故选D。
以下哪种数据库属于NoSQL中的列式存储?
A.MySQL
B.Redis
C.HBase
D.MongoDB
答案:C
解析:HBase基于HDFS实现列式存储,适合海量稀疏数据;MySQL是关系型(行式),Redis是键值,MongoDB是文档型。故选C。
数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是?
A.数据结构:湖支持结构化,仓库支持非结构化
B.存储成本:湖更高,仓库更低
C.处理阶段:湖存储原始数据,仓库存储加工数据
D.查询性能:湖更快,仓库更慢
答案:C
解析:数据湖存储原始的、多格式的数据(结构化/非结构化),数据仓库存储经过清洗、建模的结构化数据。其他选项均错误(湖支持非结构化,存储成本更低,查询性能仓库优化更好)。故选C。
以下哪项是Flink中时间窗口的类型?
A.滑动窗口(SlidingWindow)
B.固定窗口(FixedWindow)
C.会话窗口(SessionWindow)
D.以上都是
答案:D
解析:Flink支持滑动、固定、会话等多种窗口类型,分别适用于不同业务场景(如固定窗口按时间分割,会话窗口按事件间隔分割)。故选D。
大数据平台中,YARN的主要功能是?
A.分布式计算任务调度
B.分布式文件存储
C.实时流数据处理
D.数据清洗转换
答案:A
解析:YARN(YetAnotherResourceNegotiator)负责集群资源管理和任务调度,HDFS负责存储,Spark/Flink负责计算,ETL工具负责清洗。故选A。
以下哪种技术用于解决数据倾斜(DataSkew)问题?
A.增加Reducer数量
B.随机前缀加盐
C.提高网络带宽
D.压缩数据存储
答案:B
解析:数据倾斜是由于部分键数据量过大导致,随机前缀加盐可将热点键分散到多个任务处理;增加Reducer数量可能缓解但非根本解决,网络带宽和压缩与倾斜无关。故选B。
元数据管理(MetadataManagement)的核心目标是?
A.提高数据存储效率
B.记录数据的来源、结构和血缘
C.增强数据加密安全性
D.加速数据查询响应
答案:B
解析:元数据是“关于数据的数据”,用于描述数据的来源(血缘)、结构(字段含义)、质量等信息,帮助理解和管理数据资产。其他选项是存储、安全、查询优化的目标。故选B。
二、多项选择题(共10题,每题2分,共20分)
Spark的核心组件包括以下哪些?()
A.SparkCore
B.SparkSQL
C.SparkStreaming
D.MLlib
E.GraphX
答案:ABCDE
解析:Spark生态包含Core(核心引擎)、SQL(结构化数据处理)、Streaming(流计算)、MLlib(机器学习)、GraphX(图计算),均为核心组件。Hive是Hadoop生态工具,非Spark组件。
数据倾斜的常见原因包括?()
您可能关注的文档
- 105捆2元人民币起拍价20余万元.docx
- 2026年医药研发注册师考试题库(附答案和详细解析)(0105).docx
- 2026年医药研发注册师考试题库(附答案和详细解析)(0119).docx
- 2026年咖啡师考试题库(附答案和详细解析)(0130).docx
- 2026年数据可视化设计师考试题库(附答案和详细解析)(0103).docx
- 2026年注册机械工程师考试题库(附答案和详细解析)(0112).docx
- 2026年注册港口与航道工程师考试题库(附答案和详细解析)(0125).docx
- 2026年注册港口与航道工程师考试题库(附答案和详细解析)(0128).docx
- 2026年注册电力工程师考试题库(附答案和详细解析)(0119).docx
- 5A景区智慧导览系统建设协议.docx
- 95后养猪人放DJ音乐给猪听.docx
- Heston随机波动率模型下亚式期权定价模拟研究.docx
- Python编程入门试题及答案.doc
- SaaS企业的订阅制商业模式优化.docx
最近下载
- 2022年版《义务教育语文课程标准》测试题含答案(三套).pdf VIP
- 2025年北京市朝阳区九年级初三一模语文试卷(含答案).pdf
- 2026年春人教版五年级下英语教学计划及教学进度安排表.docx VIP
- 2022年版义务教育语文课程标准测试题(含答案).docx VIP
- DB50T 962-2025公路瓦斯隧道施工技术规范.docx VIP
- 2025年度奶粉行业展会参展与合作推广合同范本.docx
- 乙苯脱氢制苯乙烯工艺流程模拟.pdf VIP
- 广州新版八年级下英语期中重难点知识--unit1-----unit4.doc VIP
- 产品数字化设计与开发赛题(C卷).pdf VIP
- 《义务教育语文课程标准》(2022年版)测试题(含答案).docx VIP
原创力文档

文档评论(0)