- 1
- 0
- 约5.03千字
- 约 14页
- 2026-05-25 发布于四川
- 举报
(2025年)大数据竞赛理论试题及答案
一、单项选择题(每题2分,共20分)
1.以下哪项不属于数据清洗的主要任务?
A.处理缺失值
B.消除重复数据
C.转换数据格式
D.构建数据立方体
2.在Hadoop分布式文件系统(HDFS)中,客户端与NameNode通信主要使用的协议是?
A.NFS
B.HDFSClientProtocol
C.RPC
D.HTTP
3.关于Spark的RDD(弹性分布式数据集),以下描述错误的是?
A.RDD支持基于内存的计算
B.RDD通过血统(Lineage)机制实现容错
C.RDD是不可变的分布式对象集合
D.RDD的持久化策略仅支持磁盘存储
4.某电商平台需要分析用户“加购-支付”的转化漏斗,应优先使用哪种数据分析方法?
A.关联规则挖掘
B.路径分析
C.聚类分析
D.时间序列预测
5.以下哪种技术最适合处理PB级非结构化日志数据的实时处理需求?
A.Hive
B.Flink
C.HBase
D.Redis
6.在机器学习中,若模型在训练集上准确率为95%,在测试集上准确率为60%,最可能的原因是?
A.欠拟合
B.过拟合
C.数据不平衡
D.特征维度不足
原创力文档

文档评论(0)