- 1
- 0
- 约4.55千字
- 约 13页
- 2026-05-09 发布于福建
- 举报
第PAGE页共NUMPAGES页
2026年数据科学专业学生考研面试试题解析
一、专业基础知识(共5题,每题8分,总分40分)
1.数据预处理中的缺失值处理方法有哪些?请结合实际应用场景说明其优缺点。
答案与解析:
数据预处理中的缺失值处理方法主要包括:
(1)删除法:包括行删除(删除含有缺失值的样本)和列删除(删除含有缺失值的特征)。
-优点:简单易行,计算成本低。
-缺点:可能丢失大量有效信息,尤其当缺失值比例较高时。
(2)均值/中位数/众数填充:用统计值填充缺失值。
-优点:操作简单,计算效率高。
-缺点:掩盖数据真实分布,可能导致偏差。
(3)回归/插值填充:利用其他特征预测缺失值。
-优点:更符合数据逻辑,准确性较高。
-缺点:计算复杂,依赖模型精度。
(4)多重插补:通过模拟缺失值生成多个完整数据集,再进行统计推断。
-优点:保留数据方差,更科学。
-缺点:操作复杂,需要统计软件支持。
应用场景举例:
-电商用户行为数据:若用户某次购物未填写收货地址,可先删除该条数据,或用均值填充(若地址分布均匀);若缺失比例高,可结合用户历史订单数据通过回归填充。
2.解释交叉验证(Cross-Validation)的原理及其在模型评估中的意义。
答案与解析:
交叉验证通过将数据集分成若干子集,轮流作为测试集,其余作为训练集,重复评估模型性能。常
原创力文档

文档评论(0)