2021年MathorCup大数据竞优秀论文1.pdfVIP

  • 3
  • 0
  • 约4.82万字
  • 约 35页
  • 2025-10-18 发布于甘肃
  • 举报

队伍编号MCB2100090

赛道A

基于多模型Stacking融合的二手车定价销售策略研究

摘要

随着中国二手车交易体量日趋增长,一个完善合理的二手车资产价值评估体系亟需

构建。但由于二手车具有“一车一况”的特殊属性且新车价格的波动会带来联动影

响,二手车的价值衡量标准难以准确设定。本文旨在建立一个二手车资产价值评估的

普适性模型,为二手车价格估算提供一种辅助解决方案,并探究缩短门店成交周期的

有效手段,为缓和二手车市场信息不对称、完善交易评估体系出一份绵薄之力。

针对问题一,第一步(数据清洗):本文运用统计指标、K近邻算法(KNN)等填充方

法,逐个对附件1、附件2进行缺失值、异常值处理。第二步(特征工程):本文对部分

类别特征数据进行标签编码和独热编码,然后进行特征构造并删除重复信息的字段,

同时对部分数值特征进行分箱处理。第三步(可视化):利用pandas-profiling工具生成

研究报告,并通过绘制分布图、热力图、三维柱状图、三维散点图等,对特征变量进

行统计解释。第四步(模型准备):本文依据题干信息及统计学理论,建立并采用评测

标准、调整决定系数、平均相对误差、5%误差准确率这四项指标作为本文的模型评

估标准。第五步(模型建立):本文先建立神经网络模型评判数据集预测情况,然后利

用XGBoost算法、随机森林、SFS序列前向选择筛选得到34个特征,据此分别建立3

个线性回归模型及7个树模型,并根据上述11个模型的评估结果,决定采用测评表现

最优的XGBoost算法、LightGBM算法、CatBoost算法作为本文的预测模型,同时利

用贝叶斯优化调参对其进行优化。第六步(模型融合):为进一步提升模型的预测效

果,本文采用Stacking法将上述选择的3个模型进行模型融合,其结果表明融合后模

型波动更小且预测更为稳定。

针对问题二,本文先在特征工程中对附件4数据集进行特征构造,同时将其与附

件1数据集进行拼接处理。通过分析数据集,本文构建车辆的总成交周期由总调价周

期和最佳成交周期两个阶段组成的模型,并利用XGBoost算法判断影响二手车总成交

周期的关键因素。针对如何采取行之有效的手段加快门店在库车辆的销售速度,本文

决定采用问题一预测出的二手车交易价格作为指导价,针对上架价格进行定价处理;

同时通过减小调价周期、增大降价幅度、增加调价次数对总调价周期进行干预;针对

最佳成交周期,本文先抛弃调价因素,再利用XGBoost算法进行特征重要性排序,以

此得到了多个对最佳成交周期产生显著性影响的特征,并利用数据可视化和K-Means

聚类分析探究如何利用这些因素来改善最佳成交周期进而缩减总成交周期。

针对问题三,本文从提高利润率,扩宽客户受众,拓展业务广度,增添附加值业

务四个方面入手,通过与互联网公司合作绘制用户画像,针对不同地区不同的用户偏

好,因地制宜进行展销,并且通过布局二手新能源汽车业务,如二手电池产业,充电

桩产业以拓展业务广度,并从二手车检测认证,翻新,质保,保险四个方面增添附加

值业务。将有限资源,精准投入到重点领域,增强业绩稳定性,实现良性发展。

关键词:特征工程、神经网络、Boosting算法、Stacking融合、K-Means聚类

目录

一.问题重述1

1.1研究背景1

1.2研究问题1

二.问题分析1

2.1针对问题一的分析2

2.2针对问题二的分析2

2.3针对问题三的分析3

三.原始数据集介绍4

四.问题一模型的建立和求解4

4.1数据清洗4

4.2特征工程7

4.3可视化分析8

4.4模型准备10

4.5神经网络10

4.6树模型11

4.7模型融合——Stacking法19

五.问题二模型的建立与求解20

5.1特征工程20

5.2挖掘车辆成交周期的关键因素23

5.3寻求加快在库车辆销售速度的有效手段24

六.问题三模型的建立与求解30

6.1提高利润率30

6.2扩宽客户受众30

6.3拓宽业

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档