- 1
- 0
- 约2.97万字
- 约 27页
- 2025-10-18 发布于甘肃
- 举报
队伍编号MCB2102047
赛道A
基于多模型融合与灰色关联分析的二手车交易问题研究
摘要
随着经济的发展,我国的机动车保有量不断上升,二手车市场迅速扩展,二手车交
易受到诸多因素的影响。本文就题目所给数据完成对二手车的估价以及分析影响二手车
成交周期的关键因素。
对问题一中二手车的估价问题,首先对所给数据进行预处理,在这一阶段,先根据
特征的取值离散连续情况标记出类别特征并编码,分别通过众数和平均值分别填充离散
和连续特征;其次,剔除数据中的异常值以避免引入误差;最后,变换实际交易价格使
其近似呈线性分布,以利于模型的学习;对类别特征采用one-hot编码,消除编码带来
的类间差异;计算特征之间的相关系数以及建立新的特征等。下一阶段中,先按7:3比
例分割数据集,采用集成学习Bagging与Boosting中的随机森林、梯度提升决策树GBDT、
XGBoost以及Lightgbm算法在训练集上训练,实验表明四种算法对该数据集都具有足够
的拟合能力,但是由于过拟合均很严重,难以获得很好的精度。为此,在测试集上进行
超参数的选取,在保证测试精度的同时减轻过拟合的程度,提升模型的泛化性能,四种
算法测试精度分别为0.526、0.51、0.529、0.534。在本问题的最后,建立多模型融合三
层Stacking结构,第一层使用上述四个学习器,第二层仅使用GBDT、XGBoost、Lightgbm,
再通过线性回归层输出。实验表明由于Stacking利用了多种学习器各自的优势与强项,
在保证模型泛化性的前提下,其测试精度分别为0.572,这表明模型精度得到了进一步
的提升,优于任何一种单模型。
对问题二中探究影响二手车成交周期的关键因素,同样首先对所提供数据进行分析,
删除未完成成交的二手车数据,并从问题一提供的数据中找到同一辆二手车的其他具体
信息。计算各特征之间以及特征与标签之间的相关系数,寻找是否存在显著的线性关系,
去除冗余特征。之后将最后一次改价到成交时间之间的天数作为标签值,通过XGBoost
回归模型在数据集上训练,以基决策树使用每个特征时的信息增益作为特征重要性的依
据,得到影响成交周期的关键因素以及各因素之间的定量差距;接着利用灰色关联法探
究特征与成交周期之间的相关性,计算并得到其之间的灰色关联度。最后,将两种方法
得到的排序结果和定量差距进行融合以输出最后的结果,结果发现车辆所在城市cityId、
载客人数seatings、国标码carCode以及过户次数transferCount是影响成交周期的最关
键的几个因素。由于前三个为类别特征,本文在接下来的研究中发现有些类别比如编号
为50、67等城市的成交周期最短,载客人数为3的二手车成交周期也相对最短,本文
后续也对该结果进行了分析并提供了相关建议。
问题三为开放性问题,考虑到问题二中没有利用到的未成交二手车的数据信息,提
出可以将二手车完成成交,也就是是否卖出作为标签信息以及结合给定的车辆其它信息
预测卖出情况的二分类问题,从而可以利用该模型来指导二手车交易平台的合理经营。
我们考虑使用BP神经网络结合softmax层作为训练模型,利用交叉熵损失函数完成梯
度下降与网络权重的更新,以分类精确度为指标,提升分类器的性能。如若出现了过拟
合现象则可以考虑权值衰退或dropout策略。
关键词:梯度提升树,随机森林,XGBoost,Lightgbm,多模型融合,灰色关联分析
目录
1.问题重述1
1.1研究背景1
1.2研究问题1
2.问题分析1
2.1问题一分析1
2.2问题二分析2
2.3问题三分析3
3.模型假设3
4.符号说明3
5.问题一4
5.1数据预处理4
5.2基于Bagging与Boosting的回归模型建立8
5.2.1梯度提升回归树(GBRT)9
5.2.2
您可能关注的文档
- 2024年MathorCup大数据挑战赛-赛道A初赛.pdf
- 2024年MathorCup大数据挑战赛-赛道B初赛.docx
- 2024年MathorCup大数据挑战赛-赛道B初赛.pdf
- 2024年MathorCup大数据挑战赛-赛道A初赛.docx
- Kendall一致性检验_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- Pearson相关性分析_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- Spearman相关性分析_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- 描述性统计_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- 数据概览_台风编号_经度_纬度.docx
- 聚类分析_(台风编号-台风中文名称-台风英文名称-台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风强度-台风等级-风速-气压-移动方向-移动速度).docx
最近下载
- (高清版)-B-T 30146-2023 安全与韧性 业务连续性管理体系 要求.pdf VIP
- 2025年拍卖师网络拍卖直播功能技术实现与保障专题试卷及解析.pdf VIP
- 基于遗传算法的清洁生产过程参数优化研究.pdf VIP
- 2025年全国高考生物真题试卷(黑龙江、吉林、辽宁、内蒙古)【含答案】.pdf
- 2025年拍卖师拍卖师终极时间管理:目标设定与执行复盘专题试卷及解析.pdf VIP
- 普惠金融服务的离线模式与在线模式融合研究.pdf VIP
- 基于人工智能的智慧能源园区故障诊断与预警系统研究.pdf VIP
- 2025年信息系统安全专家数据出境安全评估审计专题试卷及解析.pdf VIP
- 奇志大兵相声台词.docx VIP
- 2023年演出经纪人《思想政治与法律基础》考前点题卷一 .pdf VIP
原创力文档

文档评论(0)