2022年MathorCup大数据竞赛优秀论文-4.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

队伍编号MCB2201021

赛道B

基于SVR的业务评分预测模型

摘要

移动通信技术的快速发展为人们带来了便利,同时也使得网络覆盖越来越完善。为了提高

客户的网络使用体验,各个移动运营商开始重视客户满意度。本文利用中国移动提供的数据对

影响业务评分的主要因素进行了深入分析,并建立了业务评分的预测模型。

在数据预处理部分,我们首先对明显无关属性、重复属性与方差极小的属性进行了剔除处

理。对于空值,类别变量我们将其填充为此列的众数;而连续型变量,根据附件5说明,我们

将其填充为0。针对类别变量,我们将其进行标签编码,以便之后的数据分析。此外,我们根据

直觉构造出新的特征属性,如“遇到网络问题场景数”、“遇到网络问题类别数”、“视频网络问

题数”等。

针对问题一,本文首先将特征属性分为了两个类:连续型属性和离散型属性。针对连续型

属性,本文首先利用最大信息系数(MIC)来衡量特征属性与评分之间的线性与非线性相关性,

发现所有属性与评分的最大信息系数均小于0.1,无论是线性关系还是非线性关系均较弱。为了

进一步探究,利用灰色关联分析(GRA)得到灰色关联系数,发现均小于0.5。综合MIC和灰色

关联系数,说明了连续型变量对于评分的影响可以忽略。针对离散型属性,本文首先利用Pearson

卡方检验来衡量属性与评分之间的差异性,之后通过效应量化分析,计算Phi系数、克莱姆相

关系数、列联系数与Lambda统计量,发现在语音业务中,有7个属性主要影响其评分(表10),

其中,“是否遇到网络问题”对四个评分的影响均为最大;在上网业务中,有9个属性主要影响

其评分(表16),“遇到网络问题场景数”和“遇到网络问题类别数”对四个评分的影响均排在

前二位。

针对问题二,本文首先结合问题一的分析,将构造的新属性中对评分有主要影响的特征作

为新特征加入到问题二的属性中。结合预测数据与现有数据,对属性取交集作为用于预测的特

征。在特征工程方面,针对连续型变量,我们首先对它们进行正态性检验,计算偏度与峰度,

取偏度绝对值大于0.5的属性进行box-cox变换,之后对所有的连续型属性进行极差最大值变

化使其无量纲化;针对离散型变量,将无序离散型变量进行独热编码处理,而有序离散型变量

不做处理。在模型的选择方面,利用Python中sklearn的便捷性,对线性回归、贝叶斯岭回归、

LGBM、SVR、决策树回归、随机森林、XGBoost、GBDT、CatBoost以及基于Stacking的集成模型

分别进行了10折交叉验证,发现SVR的模型性能要远优于其他模型(表18),因此本文选择SVR

作为最后的模型。然后,本文利用随机搜索确定SVR超参数的最优范围,利用网格搜索确定超

参数的最终取值。以3:1划分训练集和验证集,在验证集上,得到模型在语音业务评分中的MAE

分别为1.035、1.163、1.015和1.115,在上网业务中的MAE分别为1.433、1.453、1.427和

1.449。最后,对附件3、4的数据进行预测,计算预测评分分布与附件1、2中评分分布的JS散

度,得到它们均在0.03左右,说明预测分布与真实数据分布相似,预测结果合理。

关键词:中国移动支持向量回归相关性分析

目录

一、问题重述1

1.1问题背景1

1.2数据分析1

1.3问题提出1

二、问题分析1

2.1问题一的分析1

2.2问题二的分析1

三、符号说明2

四、数据预处理2

4.1语音业务数据预处理2

4.2上网业务数据预处理3

五、问题一模型的建立与求解4

5.1语音业务满意度的主要影响因素4

5.2上网业务满意度的主要影响因素10

六、问题二模型的建立与求解12

6.1特征选择与转换12

6.2数据的编码与无量纲化14

6.3模型选择15

6.4支持向量机15

6.4评分预测16

您可能关注的文档

文档评论(0)

数学建模-赛道做 + 关注
实名认证
服务提供商

各类数学建模竞赛-文档,及优秀论文分享

1亿VIP精品文档

相关文档