- 1
- 0
- 约6.28千字
- 约 5页
- 2023-09-25 发布于上海
- 举报
阿⾥Datawhale⼆⼿车价格预测——优胜奖⽅案总结(代码开源)
本次⽐赛的最终名次是13/2815,刚好挤上了优胜奖的末班车。。
解决⽅案及算法
⽐赛介绍
赛题以⼆⼿车市场为背景,要求选⼿预测⼆⼿汽车的交易价格,这是⼀个典型的回归问题。
其他具体流程可以看⽐赛官⽹。
数据处理
1、box-cox变换⽬标值“price”,解决长尾分布。
2、删除与⽬标值⽆关的列,例如“SaleID”,“name”。这⾥可以挖掘⼀下“name”的长度作为新的特征。
3、异常点处理,删除训练集特有的数据,例如删除“seller”==1的值。
4、缺失值处理,分类特征填充众数,连续特征填充平均值。
5、其他特别处理,把取值⽆变化的列删掉。
6、异常值处理,按照题⽬要求“power”位于0~600,因此把 “power”600的值截断⾄600,把notRepairedDamage的⾮数值的
值替换为np.nan,让模型⾃⾏处理。
特征⼯程
1、时间地区类
从 “regDate”,“creatDate”可以获得年、⽉、⽇等⼀系列的新特征,然后做差可以获得使⽤年长和使⽤天数这些新特征。
“regionCode”没有保留。
因为尝试了⼀系列⽅法,并且发现了可能会泄漏 “price”,因此最终没保留该特征。
2、分类特征
对可分类的连续特征进
您可能关注的文档
- 食品输送机的发展现状及前景分析.pdf
- 闸墩结构计算4399.pdf
- 闭合导线测量整理复习.pdf
- 银行校园招聘招往届生吗?.pdf
- 重庆武隆仙女山行程安排.pdf
- 金属的腐蚀与防护 教案.pdf
- 阅读疗法:抑郁症患者自我疗愈书单.pdf
- 金属的电化学腐蚀与防护的教案.pdf
- 金龙鱼五力模型.pdf
- 钢丝网架免拆保温模板和钢丝网架保温内置现浇一体化的技术要求,技术特点.pdf
- 8.《健康信息学 术语系统中护理实践表示的分类结构》国家标准编制说明.pdf
- 1、兵工民品行业计量技术规范项目建议书(热板式凝胶时间测定仪校准规范).pdf
- 02 附件3 轻工业计量技术规范项目建议书-真空冷冻干燥机校准规范.pdf
- 四道有关近似值计算习题及答案详解一.docx
- 5.《合成树脂工业水污染物排放标准(征求意见稿)》编制说明.pdf
- 会计荣誉证书公示.docx
- 02 除颤试验脉冲发生器校准规范 - 副本.pdf
- 1、《金属类板式微反应器控制系统校准规范》等151项行业计量技术规范计划项目汇总表.pdf
- 2.《健康信息学 患者健康卡数据 第4部分:扩展临床数据》国家标准编制说明.pdf
- 《食物血糖生成指数测定与标示规范》编制说明(征求意见稿).pdf
原创力文档

文档评论(0)