- 3
- 0
- 约8.93千字
- 约 12页
- 2026-04-28 发布于上海
- 举报
大数据工程师职业资格考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪组组件是Hadoop生态中分布式存储与资源管理的核心组件?
A.HDFS(分布式文件系统)与YARN(资源调度)
B.Spark(计算框架)与Hive(数据仓库)
C.Flink(流处理)与Kafka(消息队列)
D.HBase(数据库)与ZooKeeper(协调服务)
答案:A
解析:Hadoop核心架构包括HDFS(存储)、YARN(资源管理)和MapReduce(计算)。选项B中Spark是独立计算框架,非Hadoop原生核心;C中Flink和Kafka属于流处理生态;D中HBase是基于HDFS的数据库,ZooKeeper是协调工具,均非存储与资源管理的核心对。
以下哪种场景最适合使用SparkStreaming而非Storm?
A.需要亚秒级延迟的实时计数
B.要求严格Exactly-Once语义的金融交易处理
C.基于微批处理的日志分析(如5分钟窗口聚合)
D.低资源消耗的简单流过滤
答案:C
解析:SparkStreaming基于RDD的微批处理(如5秒/30秒批次),适合对延迟要求不高但需要复杂批处理逻辑的场景;Storm是纯流式处理,适合亚秒级延迟(A)和严格Exactly-Once(B);D属于轻量级流处理,Storm或Flink更合适。
数据清洗中“处理缺失
您可能关注的文档
- 2026年数字化转型师考试题库(附答案和详细解析)(0215).docx
- 2026年注册信息架构师考试题库(附答案和详细解析)(0207).docx
- 2026年注册工业设计师考试题库(附答案和详细解析)(0116).docx
- 2026年注册招标师考试题库(附答案和详细解析)(0204).docx
- 2026年灾难应对心理师考试题库(附答案和详细解析)(0224).docx
- 2026年矫正社会工作师考试题库(附答案和详细解析)(0109).docx
- 2026年移动安全工程师考试题库(附答案和详细解析)(0213).docx
- PPT的逻辑结构设计技巧(金字塔原理).docx
- PyTorch中的循环神经网络(RNN)应用.docx
- RCEP的原产地规则(累积规则)与关税减免.docx
原创力文档

文档评论(0)