数据处理面试题及详细答案.docxVIP

  • 1
  • 0
  • 约9.96千字
  • 约 10页
  • 2026-05-29 发布于河北
  • 举报

数据处理面试题及详细答案

一、基础概念题(考察核心认知,无套路,贴合实际工作)

1.请说明数据清洗的核心目的,以及你工作中最常遇到的3种数据脏数据类型,分别怎么处理?

答案:数据清洗的核心目的不是“删除脏数据”,而是剔除或修正不符合分析/建模要求的数据,保证数据的准确性、完整性和一致性,为后续的数据分析、建模提供可靠的数据源,避免脏数据导致分析结果失真、模型失效。

工作中最常遇到的3种脏数据及处理方式(拒绝理论化,只说实操):

(1)缺失值:比如用户年龄、订单金额字段缺失,而非空字符串或0(区分“缺失”和“合理为空”)。处理方式:①若缺失比例极低(5%),且字段重要(如核心指标),用中位数(数值型)、众数(分类型)填充,避免均值受异常值影响;②若缺失比例高(30%),且字段非核心,直接删除该字段;③若缺失有业务逻辑(如“未下单用户的订单金额”),用“NULL”标注,不强行填充,保留业务真实性。

(2)异常值:比如订单金额为100000元(远超行业平均1000元)、用户年龄为150岁,属于明显不符合业务逻辑的异常。处理方式:①先核实数据来源(是否录入错误、接口传输异常),能修正则修正(如把150改成50);②无法修正的,若异常值数量少,直接剔除;若数量较多,用分位数法(如剔除99.5%分位以上、0.5%分位以下),或用中位数替换,避免影响整体数据分布。

(3)重复值:比

文档评论(0)

1亿VIP精品文档

相关文档