2026年数据科学专业学生考研面试试题解析.docxVIP

  • 1
  • 0
  • 约4.55千字
  • 约 13页
  • 2026-05-09 发布于福建
  • 举报

2026年数据科学专业学生考研面试试题解析.docx

第PAGE页共NUMPAGES页

2026年数据科学专业学生考研面试试题解析

一、专业基础知识(共5题,每题8分,总分40分)

1.数据预处理中的缺失值处理方法有哪些?请结合实际应用场景说明其优缺点。

答案与解析:

数据预处理中的缺失值处理方法主要包括:

(1)删除法:包括行删除(删除含有缺失值的样本)和列删除(删除含有缺失值的特征)。

-优点:简单易行,计算成本低。

-缺点:可能丢失大量有效信息,尤其当缺失值比例较高时。

(2)均值/中位数/众数填充:用统计值填充缺失值。

-优点:操作简单,计算效率高。

-缺点:掩盖数据真实分布,可能导致偏差。

(3)回归/插值填充:利用其他特征预测缺失值。

-优点:更符合数据逻辑,准确性较高。

-缺点:计算复杂,依赖模型精度。

(4)多重插补:通过模拟缺失值生成多个完整数据集,再进行统计推断。

-优点:保留数据方差,更科学。

-缺点:操作复杂,需要统计软件支持。

应用场景举例:

-电商用户行为数据:若用户某次购物未填写收货地址,可先删除该条数据,或用均值填充(若地址分布均匀);若缺失比例高,可结合用户历史订单数据通过回归填充。

2.解释交叉验证(Cross-Validation)的原理及其在模型评估中的意义。

答案与解析:

交叉验证通过将数据集分成若干子集,轮流作为测试集,其余作为训练集,重复评估模型性能。常

文档评论(0)

1亿VIP精品文档

相关文档