- 1
- 0
- 约9.23千字
- 约 23页
- 2026-03-30 发布于四川
- 举报
2026年大数据分析师模拟试题及答案
一、单项选择题(共20题,每题2分,共40分)
1.以下哪项不是Hadoop生态系统的核心组件?
A.HDFS
B.MapReduce
C.Spark
D.YARN
答案:C
解析:Hadoop核心组件为HDFS(存储)、MapReduce(计算)、YARN(资源管理),Spark是独立的分布式计算框架。
2.数据清洗中处理“年龄”字段时,若某条记录值为“5”,最合理的处理方法是?
A.直接删除该记录
B.用均值替换
C.标记为缺失值后插值
D.保留原始值
答案:C
解析:“5”为异常值(年龄不可能为负),应先标记为缺失,再通过插值(如均值、中位数)填充,避免直接删除导致数据丢失。
3.以下分布式计算框架中,适合实时流处理的是?
A.HadoopMapReduce
B.SparkStreaming
C.Hive
D.Pig
答案:B
解析:SparkStreaming基于微批处理实现实时流处理,MapReduce是批处理,Hive和Pig是基于Hadoop的数据仓库工具。
4.数据仓库(DataWarehouse)与数据库(Database)的核心区别是?
A.数据仓库支持事务操作,数据库支持分析
B.数
原创力文档

文档评论(0)