阿里Datawhale二手车价格预测——优胜奖方案总结(代码开源).pdfVIP

  • 1
  • 0
  • 约6.28千字
  • 约 5页
  • 2023-09-25 发布于上海
  • 举报

阿里Datawhale二手车价格预测——优胜奖方案总结(代码开源).pdf

阿⾥Datawhale⼆⼿车价格预测——优胜奖⽅案总结(代码开源) 本次⽐赛的最终名次是13/2815,刚好挤上了优胜奖的末班车。。 解决⽅案及算法 ⽐赛介绍 赛题以⼆⼿车市场为背景,要求选⼿预测⼆⼿汽车的交易价格,这是⼀个典型的回归问题。 其他具体流程可以看⽐赛官⽹。 数据处理 1、box-cox变换⽬标值“price”,解决长尾分布。 2、删除与⽬标值⽆关的列,例如“SaleID”,“name”。这⾥可以挖掘⼀下“name”的长度作为新的特征。 3、异常点处理,删除训练集特有的数据,例如删除“seller”==1的值。 4、缺失值处理,分类特征填充众数,连续特征填充平均值。 5、其他特别处理,把取值⽆变化的列删掉。 6、异常值处理,按照题⽬要求“power”位于0~600,因此把 “power”600的值截断⾄600,把notRepairedDamage的⾮数值的 值替换为np.nan,让模型⾃⾏处理。 特征⼯程 1、时间地区类 从 “regDate”,“creatDate”可以获得年、⽉、⽇等⼀系列的新特征,然后做差可以获得使⽤年长和使⽤天数这些新特征。 “regionCode”没有保留。 因为尝试了⼀系列⽅法,并且发现了可能会泄漏 “price”,因此最终没保留该特征。 2、分类特征 对可分类的连续特征进

文档评论(0)

1亿VIP精品文档

相关文档