2026年大数据分析师模拟试题及答案.docxVIP

  • 1
  • 0
  • 约9.23千字
  • 约 23页
  • 2026-03-30 发布于四川
  • 举报

2026年大数据分析师模拟试题及答案

一、单项选择题(共20题,每题2分,共40分)

1.以下哪项不是Hadoop生态系统的核心组件?

A.HDFS

B.MapReduce

C.Spark

D.YARN

答案:C

解析:Hadoop核心组件为HDFS(存储)、MapReduce(计算)、YARN(资源管理),Spark是独立的分布式计算框架。

2.数据清洗中处理“年龄”字段时,若某条记录值为“5”,最合理的处理方法是?

A.直接删除该记录

B.用均值替换

C.标记为缺失值后插值

D.保留原始值

答案:C

解析:“5”为异常值(年龄不可能为负),应先标记为缺失,再通过插值(如均值、中位数)填充,避免直接删除导致数据丢失。

3.以下分布式计算框架中,适合实时流处理的是?

A.HadoopMapReduce

B.SparkStreaming

C.Hive

D.Pig

答案:B

解析:SparkStreaming基于微批处理实现实时流处理,MapReduce是批处理,Hive和Pig是基于Hadoop的数据仓库工具。

4.数据仓库(DataWarehouse)与数据库(Database)的核心区别是?

A.数据仓库支持事务操作,数据库支持分析

B.数

文档评论(0)

1亿VIP精品文档

相关文档