2025年AI数据缺失值处理实操考核卷及答案.docxVIP

下载本文档

0
0
约5.99千字
约 9页
2026-01-30 发布于天津
举报

2025年AI数据缺失值处理实操考核卷及答案.docx

2025年AI数据缺失值处理实操考核卷及答案

考试时间：______分钟总分：______分姓名：______

考试时间：120分钟总分：100分考试形式：实操（编程）+简答

考生姓名：______________准考证号：______________

一、单项选择题（每题2分，共10分）

1.在数据缺失机制中，如果缺失数据的概率与观测到的数据以及未观测到的数据都无关，称为：

A.完全随机缺失(MCAR)

B.随机缺失(MAR)

C.非随机缺失(MNAR)

D.结构性缺失

2.对于含有少量异常值的数值型变量，使用哪种方法填充缺失值通常更为稳健？

A.均值填充

B.中位数填充

C.众数填充

D.固定值填充

3.以下哪种缺失值处理方法可能会引入噪声，并导致模型对填充值过于敏感？

A.均值/中位数填充

B.预测模型填充（如回归、KNN）

C.删除含有缺失值的行

D.多重插补

4.在使用K近邻（KNN）算法进行缺失值填充时，当特征维度很高且很多特征也有缺失值时，可能会遇到什么问题？

A.计算复杂度急剧增加，“维度灾难”

B.填补值总是偏向于全局众数

C.无法处理数值型特征

D.一定会导致过拟合

5.在时间序列数据中，如果缺失值是由于传感器临时故障导致，且数据具有明显的趋势和季节性，以下哪种方法最不合适？

A.线性插值

B.样条插值

C.前向填充(FFill)或后向填充(BFill)

D.删除缺失值所在的时间点

二、简答题（每题10分，共20分）

1.简述完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)的区别，并举例说明。在实际项目中，如何初步判断数据的缺失机制？

2.列举至少四种常见的缺失值处理方法，并说明各自的优缺点及适用场景。

三、实操题（共70分）

背景：您是一名AI工程师，现有一个关于用户购买行为的数据集`user_behavior.csv`，该数据集包含以下字段：

-`user_id`:用户ID(唯一标识)

-`age`:用户年龄(数值型)

-`gender`:用户性别(分类型:Male,Female,Other)

-`income`:用户年收入(数值型，单位：万元)

-`spending_score`:用户消费评分(数值型，0-100)

-`last_purchase_days`:距离上次购买天数(数值型)

-`product_category`:常购买商品类别(分类型:Electronics,Clothing,Food,Beauty)

数据描述：

-数据集共10000条记录。

-`age`缺失约5%(约500条)。

-`income`缺失约15%(约1500条)，且初步观察发现高收入用户更倾向于不透露收入。

-`gender`缺失约3%(约300条)。

-`spending_score`缺失约2%(约200条)，且缺失用户`last_purchase_days`普遍较长。

-`product_category`缺失约8%(约800条)。

任务要求：

请使用Python（推荐Pandas,Scikit-learn库）完成以下数据缺失值处理任务，并附上详细代码注释和必要的文字说明。

1.数据加载与初步探索(10分)

-加载`user_behavior.csv`数据集。

-查看数据的基本信息（列名、数据类型、非空计数）。

-查看各列缺失值的数量和比例。

-生成数据概览报告（如使用`describe()`），并初步观察各特征分布。

2.缺失值处理策略制定与实施(40分)

针对不同特征的缺失情况，选择合适的缺失值处理方法，并说明理由。具体要求：

-a.`age`列：选择一种合适的方法填充缺失值，并实现。(10分)

-b.`income`列：考虑到其缺失可能与用户自身意愿（非随机）有关，选择至少两种方法进行处理，并比较两种方法填充后的`income`列的均值、中位数和标准差。(15分)

-c.`gender`列：选择合适的方法填充缺失值，并实现。(5分)

-d.`spending_score`列：根据初步观察（缺失用户`last_purchase_days`普遍较长），选择合适的方法处理，并实现。(5分)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年AI数据缺失值处理实操考核卷及答案.docxVIP