数据分析岗试题及详细答案.docxVIP

  • 1
  • 0
  • 约9.49千字
  • 约 10页
  • 2026-05-29 发布于河北
  • 举报

数据分析岗试题及详细答案

一、基础概念题(每题5分,共20分)

1.请解释什么是数据清洗,以及数据清洗中常见的问题和处理方法(至少3种常见问题)。

答案:

数据清洗是指对原始数据进行检测、识别并处理异常、缺失、重复等问题,将“脏数据”转化为干净、规范、可用的数据,为后续分析建模提供可靠基础,是数据分析流程中最基础且关键的一步(占比往往达整个分析工作的60%以上)。

常见问题及处理方法:

(1)缺失值:指数据中某些字段的值为空。处理方法:①若缺失量极少(5%),可直接删除对应行/列;②若缺失量中等,可根据字段类型填充(数值型字段用均值、中位数,分类字段用众数);③若缺失量较大,可采用插值法(线性插值、多项式插值)或结合业务逻辑填充(如用户年龄缺失,可根据用户注册时间、消费习惯间接推断)。

(2)重复值:指数据中存在完全相同或核心字段相同的重复记录(如同一用户多次提交相同信息)。处理方法:①完全重复:直接删除重复行,保留一条即可;②部分重复:根据业务需求,保留最新/最完整的一条记录(如保留用户最后一次登录的记录),或合并重复记录中的有效字段。

(3)异常值:指与数据整体分布偏离较大、不符合业务逻辑的值(如用户年龄为150岁、订单金额为负数)。处理方法:①先验证异常值是否为录入错误(如手误输错数字),若是则修正;②若为真实异常(如高价值特殊订单),可单独标记,不直接删除

文档评论(0)

1亿VIP精品文档

相关文档