2021年MathorCup大数据竞优秀论文6.pdfVIP

  • 1
  • 0
  • 约2.97万字
  • 约 27页
  • 2025-10-18 发布于甘肃
  • 举报

队伍编号MCB2102047

赛道A

基于多模型融合与灰色关联分析的二手车交易问题研究

摘要

随着经济的发展,我国的机动车保有量不断上升,二手车市场迅速扩展,二手车交

易受到诸多因素的影响。本文就题目所给数据完成对二手车的估价以及分析影响二手车

成交周期的关键因素。

对问题一中二手车的估价问题,首先对所给数据进行预处理,在这一阶段,先根据

特征的取值离散连续情况标记出类别特征并编码,分别通过众数和平均值分别填充离散

和连续特征;其次,剔除数据中的异常值以避免引入误差;最后,变换实际交易价格使

其近似呈线性分布,以利于模型的学习;对类别特征采用one-hot编码,消除编码带来

的类间差异;计算特征之间的相关系数以及建立新的特征等。下一阶段中,先按7:3比

例分割数据集,采用集成学习Bagging与Boosting中的随机森林、梯度提升决策树GBDT、

XGBoost以及Lightgbm算法在训练集上训练,实验表明四种算法对该数据集都具有足够

的拟合能力,但是由于过拟合均很严重,难以获得很好的精度。为此,在测试集上进行

超参数的选取,在保证测试精度的同时减轻过拟合的程度,提升模型的泛化性能,四种

算法测试精度分别为0.526、0.51、0.529、0.534。在本问题的最后,建立多模型融合三

层Stacking结构,第一层使用上述四个学习器,第二层仅使用GBDT、XGBoost、Lightgbm,

再通过线性回归层输出。实验表明由于Stacking利用了多种学习器各自的优势与强项,

在保证模型泛化性的前提下,其测试精度分别为0.572,这表明模型精度得到了进一步

的提升,优于任何一种单模型。

对问题二中探究影响二手车成交周期的关键因素,同样首先对所提供数据进行分析,

删除未完成成交的二手车数据,并从问题一提供的数据中找到同一辆二手车的其他具体

信息。计算各特征之间以及特征与标签之间的相关系数,寻找是否存在显著的线性关系,

去除冗余特征。之后将最后一次改价到成交时间之间的天数作为标签值,通过XGBoost

回归模型在数据集上训练,以基决策树使用每个特征时的信息增益作为特征重要性的依

据,得到影响成交周期的关键因素以及各因素之间的定量差距;接着利用灰色关联法探

究特征与成交周期之间的相关性,计算并得到其之间的灰色关联度。最后,将两种方法

得到的排序结果和定量差距进行融合以输出最后的结果,结果发现车辆所在城市cityId、

载客人数seatings、国标码carCode以及过户次数transferCount是影响成交周期的最关

键的几个因素。由于前三个为类别特征,本文在接下来的研究中发现有些类别比如编号

为50、67等城市的成交周期最短,载客人数为3的二手车成交周期也相对最短,本文

后续也对该结果进行了分析并提供了相关建议。

问题三为开放性问题,考虑到问题二中没有利用到的未成交二手车的数据信息,提

出可以将二手车完成成交,也就是是否卖出作为标签信息以及结合给定的车辆其它信息

预测卖出情况的二分类问题,从而可以利用该模型来指导二手车交易平台的合理经营。

我们考虑使用BP神经网络结合softmax层作为训练模型,利用交叉熵损失函数完成梯

度下降与网络权重的更新,以分类精确度为指标,提升分类器的性能。如若出现了过拟

合现象则可以考虑权值衰退或dropout策略。

关键词:梯度提升树,随机森林,XGBoost,Lightgbm,多模型融合,灰色关联分析

目录

1.问题重述1

1.1研究背景1

1.2研究问题1

2.问题分析1

2.1问题一分析1

2.2问题二分析2

2.3问题三分析3

3.模型假设3

4.符号说明3

5.问题一4

5.1数据预处理4

5.2基于Bagging与Boosting的回归模型建立8

5.2.1梯度提升回归树(GBRT)9

5.2.2

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档