(2025年)大数据竞赛题库(含答案).docx

(2025年)大数据竞赛题库(含答案)

一、数据清洗与预处理

1.某新能源汽车用户行为数据集包含字段:用户ID、注册时间、最近一次充电时间、日均行驶里程(km)、电池健康度(%)。其中“电池健康度”字段缺失率为18%,且缺失数据集中出现在车龄超过5年的车辆记录中。请设计缺失值处理方案,并说明理由。

答案:采用基于车龄分组的中位数填充法。具体步骤:①按车龄(≤5年、5年)将数据集分为两组;②分别计算两组的电池健康度中位数(≤5年组中位数92%,5年组中位数78%);③用对应组的中位数填充缺失值。理由:缺失数据与车龄强相关(车龄越长,电池健康度自然越低),分组填充可保留数据的真实分布特征

文档评论(0)

1亿VIP精品文档

相关文档