2025年数据分析师专业技能面试模拟题及答案.docx

2025年数据分析师专业技能面试模拟题及答案.docx

2025年数据分析师专业技能面试模拟题及答案

请描述数据清洗中处理缺失值的常用方法,并说明在医疗数据与电商用户行为数据中选择方法的差异。

处理缺失值的常用方法包括:删除缺失行/列(适用于缺失比例极低且不影响整体分布时)、统计值填充(均值/中位数/众数,适用于数值型/分类型变量)、插值法(线性插值、KNN插值,保留数据连续性)、模型预测填充(用其他特征训练模型预测缺失值,适用于缺失模式与其他特征强相关时)、特殊值标记(如用“未知”标识,适用于缺失本身有业务含义时)。

在医疗数据中,缺失值可能隐含关键信息(如患者未做某项检查可能暗示病情敏感),因此需优先评估缺失是否为系统性偏差(如老年患者

文档评论(0)

1亿VIP精品文档

相关文档