- 1
- 0
- 约6.34千字
- 约 19页
- 2026-06-01 发布于四川
- 举报
2025年国家电网大数据中心考试笔试试题(含答案)
一、单项选择题(共20题,每题1.5分,共30分)
1.以下哪项不属于Hadoop生态体系的核心组件?
A.HDFS
B.YARN
C.Spark
D.MapReduce
答案:C(Spark是独立的分布式计算框架,虽可与Hadoop集成,但非Hadoop原生核心组件)
2.数据仓库(DataWarehouse)与传统数据库的主要区别在于?
A.支持事务处理
B.面向主题且支持历史数据分析
C.采用关系模型存储
D.实时性要求更高
答案:B(数据仓库以分析为导向,整合多源数据,支持长期历史分析;传统数据库侧重事务处理)
3.分布式计算中,以下哪种框架更适合处理实时流数据?
A.HadoopMapReduce
B.SparkStreaming
C.Hive
D.Pig
答案:B(SparkStreaming基于微批处理实现准实时流计算,适合实时场景;MapReduce为批处理框架)
4.数据清洗过程中,针对“某用户月用电量字段值为-100kWh”的异常值,最合理的处理方式是?
A.直接删除该条记录
B.用该用户历史月均用电量替换
C.标记为缺失值后保留
D.认为是系统录入错误,取绝对值
答案:B(异
原创力文档

文档评论(0)