- 5
- 0
- 约3.19千字
- 约 10页
- 2026-02-10 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年阿里云数据分析师面试问题解答
一、选择题(共5题,每题2分,总分10分)
1.在数据清洗过程中,以下哪种方法最适合处理缺失值?(2分)
A.直接删除缺失值
B.使用均值/中位数/众数填充
C.使用模型预测缺失值
D.保留缺失值不处理
答案:B
解析:数据清洗中,缺失值处理需根据数据特性选择方法。均值/中位数/众数填充适用于数据分布均匀的情况;模型预测缺失值(如KNN、回归)适用于复杂关系,但计算成本高;直接删除会导致数据量减少,信息损失。选项B最通用。
2.以下哪种指标最适合评估分类模型的预测效果?(2分)
A.均方误差(MSE)
B.决策树深度
C.准确率(Accuracy)
D.F1分数
答案:D
解析:评估分类模型需考虑数据平衡性。准确率在类别不均衡时不可靠,F1分数兼顾精确率和召回率,更适合不平衡数据。均方误差用于回归问题,决策树深度是模型结构参数。
3.在分布式计算中,以下哪种技术能有效解决数据倾斜问题?(2分)
A.增加节点数量
B.使用哈希分区
C.数据分桶
D.减少数据量
答案:B
解析:数据倾斜导致部分节点计算负载过高。哈希分区将数据均匀分配,分桶可进一步细分,增加节点可能加剧资源竞争。减少数据量非通用方案。
4.以下哪种云服务最适合实时数据批处理?(2分)
A.EMRo
原创力文档

文档评论(0)