- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
队伍编号MCB2201021
赛道B
基于SVR的业务评分预测模型
摘要
移动通信技术的快速发展为人们带来了便利,同时也使得网络覆盖越来越完善。为了提高
客户的网络使用体验,各个移动运营商开始重视客户满意度。本文利用中国移动提供的数据对
影响业务评分的主要因素进行了深入分析,并建立了业务评分的预测模型。
在数据预处理部分,我们首先对明显无关属性、重复属性与方差极小的属性进行了剔除处
理。对于空值,类别变量我们将其填充为此列的众数;而连续型变量,根据附件5说明,我们
将其填充为0。针对类别变量,我们将其进行标签编码,以便之后的数据分析。此外,我们根据
直觉构造出新的特征属性,如“遇到网络问题场景数”、“遇到网络问题类别数”、“视频网络问
题数”等。
针对问题一,本文首先将特征属性分为了两个类:连续型属性和离散型属性。针对连续型
属性,本文首先利用最大信息系数(MIC)来衡量特征属性与评分之间的线性与非线性相关性,
发现所有属性与评分的最大信息系数均小于0.1,无论是线性关系还是非线性关系均较弱。为了
进一步探究,利用灰色关联分析(GRA)得到灰色关联系数,发现均小于0.5。综合MIC和灰色
关联系数,说明了连续型变量对于评分的影响可以忽略。针对离散型属性,本文首先利用Pearson
卡方检验来衡量属性与评分之间的差异性,之后通过效应量化分析,计算Phi系数、克莱姆相
关系数、列联系数与Lambda统计量,发现在语音业务中,有7个属性主要影响其评分(表10),
其中,“是否遇到网络问题”对四个评分的影响均为最大;在上网业务中,有9个属性主要影响
其评分(表16),“遇到网络问题场景数”和“遇到网络问题类别数”对四个评分的影响均排在
前二位。
针对问题二,本文首先结合问题一的分析,将构造的新属性中对评分有主要影响的特征作
为新特征加入到问题二的属性中。结合预测数据与现有数据,对属性取交集作为用于预测的特
征。在特征工程方面,针对连续型变量,我们首先对它们进行正态性检验,计算偏度与峰度,
取偏度绝对值大于0.5的属性进行box-cox变换,之后对所有的连续型属性进行极差最大值变
化使其无量纲化;针对离散型变量,将无序离散型变量进行独热编码处理,而有序离散型变量
不做处理。在模型的选择方面,利用Python中sklearn的便捷性,对线性回归、贝叶斯岭回归、
LGBM、SVR、决策树回归、随机森林、XGBoost、GBDT、CatBoost以及基于Stacking的集成模型
分别进行了10折交叉验证,发现SVR的模型性能要远优于其他模型(表18),因此本文选择SVR
作为最后的模型。然后,本文利用随机搜索确定SVR超参数的最优范围,利用网格搜索确定超
参数的最终取值。以3:1划分训练集和验证集,在验证集上,得到模型在语音业务评分中的MAE
分别为1.035、1.163、1.015和1.115,在上网业务中的MAE分别为1.433、1.453、1.427和
1.449。最后,对附件3、4的数据进行预测,计算预测评分分布与附件1、2中评分分布的JS散
度,得到它们均在0.03左右,说明预测分布与真实数据分布相似,预测结果合理。
关键词:中国移动支持向量回归相关性分析
目录
一、问题重述1
1.1问题背景1
1.2数据分析1
1.3问题提出1
二、问题分析1
2.1问题一的分析1
2.2问题二的分析1
三、符号说明2
四、数据预处理2
4.1语音业务数据预处理2
4.2上网业务数据预处理3
五、问题一模型的建立与求解4
5.1语音业务满意度的主要影响因素4
5.2上网业务满意度的主要影响因素10
六、问题二模型的建立与求解12
6.1特征选择与转换12
6.2数据的编码与无量纲化14
6.3模型选择15
6.4支持向量机15
6.4评分预测16
您可能关注的文档
- Pearson相关性分析_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- Spearman相关性分析_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- 描述性统计_(台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风等级-风速-气压-移动速度).docx
- 数据概览_台风编号_经度_纬度.docx
- 聚类分析_(台风编号-台风中文名称-台风英文名称-台风起始时间-台风结束时间-当前台风时间-经度-纬度-台风强度-台风等级-风速-气压-移动方向-移动速度).docx
- 数据概览_经度_纬度_台风等级.docx
- extra_tree回归_(台风起始时间-台风结束时间-当前台风时间-经度-气压-移动速度-纬度-降水量)_(风速).docx
- gbdt回归_(台风起始时间-台风结束时间-经度-当前台风时间-台风等级-气压-纬度-移动速度-降水量)_(风速).docx
- xgboost回归_(台风起始时间-台风结束时间-当前台风时间-台风强度-经度-气压-降水量-移动速度-纬度)_(风速).docx
- 决策树回归_(经度-台风起始时间-台风结束时间-纬度-当前台风时间-气压-移动速度-降水量-台风强度)_(风速).docx
最近下载
- 2025年自然辩证法课后习题答案.pdf VIP
- 6人职场经验春晚小品《职来职去》台词剧本 左凌峰.docx VIP
- 同品种临床评价撰写模版.docx VIP
- 小学生体育健康知识PPT课件.pptx VIP
- 如何做好期末复习冲刺 努力学习迎接期末考试主题班会课件PPT模板14.pptx VIP
- 国家集采药品培训课件.pptx VIP
- 一次性无菌医疗用品的医院感染管理.pptx VIP
- 2025年度落实全面从严治党主体责任和党风廉政建设责任制“一岗双责”情况述责述廉报告.docx VIP
- 基础写作(小学教育专业)全套教学课件.pptx
- 新时代大学学术英语_综合教程_下册(韩金龙)课后习题答案.pdf
原创力文档


文档评论(0)