- 1
- 0
- 约9.96千字
- 约 10页
- 2026-05-29 发布于河北
- 举报
数据处理面试题及详细答案
一、基础概念题(考察核心认知,无套路,贴合实际工作)
1.请说明数据清洗的核心目的,以及你工作中最常遇到的3种数据脏数据类型,分别怎么处理?
答案:数据清洗的核心目的不是“删除脏数据”,而是剔除或修正不符合分析/建模要求的数据,保证数据的准确性、完整性和一致性,为后续的数据分析、建模提供可靠的数据源,避免脏数据导致分析结果失真、模型失效。
工作中最常遇到的3种脏数据及处理方式(拒绝理论化,只说实操):
(1)缺失值:比如用户年龄、订单金额字段缺失,而非空字符串或0(区分“缺失”和“合理为空”)。处理方式:①若缺失比例极低(5%),且字段重要(如核心指标),用中位数(数值型)、众数(分类型)填充,避免均值受异常值影响;②若缺失比例高(30%),且字段非核心,直接删除该字段;③若缺失有业务逻辑(如“未下单用户的订单金额”),用“NULL”标注,不强行填充,保留业务真实性。
(2)异常值:比如订单金额为100000元(远超行业平均1000元)、用户年龄为150岁,属于明显不符合业务逻辑的异常。处理方式:①先核实数据来源(是否录入错误、接口传输异常),能修正则修正(如把150改成50);②无法修正的,若异常值数量少,直接剔除;若数量较多,用分位数法(如剔除99.5%分位以上、0.5%分位以下),或用中位数替换,避免影响整体数据分布。
(3)重复值:比
您可能关注的文档
最近下载
- ichqa决策树中文版.doc VIP
- 国企笔试题库及答案.doc VIP
- T∕CATAGS 106-2026 空中交通管制员岗位值勤工作状态量化评估指南.pdf VIP
- DB44_T 2644-2025 鱼类烟熏操作技术规程.docx VIP
- INOVANCE汇川IR-R220系列6轴机器人维护手册-中文.pdf VIP
- 2026年宝钢德盛不锈钢有限公司招聘备考题库及完整答案详解一套.docx VIP
- 招商银行应聘能力试题.pdf VIP
- 变电站典型二次回路图解与控制回路.pptx
- DB54_T 0582-2026 农田机械化捡石作业技术规范.pdf VIP
- DB31_T 1662-2025 养老机构消毒卫生要求.pdf VIP
原创力文档

文档评论(0)