2022年MathorCup大数据竞赛优秀论文-3.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

队伍编号MCB2201112

赛道B

Stacking

摘要

随着移动通信技术的迅猛发展和网络工程的不断建设,在信息透明、产品同质化的今天,

提升语音通话及网络服务的质量,满足用户对高质量语音通话、网络服务的需求显得尤为重

要。本文旨在Stacking,

,从已有数据中心获得有效信息,更高效地提升服务质量,从而完善业务

服务体系。

针对问题一,主要需要对用户语音及上网业务评分影响因素的程度进行量化分析。本文

首先对数据集进行统一处理,包括:、、

、、、、、、

。之后在处理好的数据集上建立、、

模型,多方面综合考虑,量化分析各影响因素对评分的影响程度,最终结果见表2、

表3及表4,并依此来确定影响用户两项业务满意度的主要因素。量化结果接近于实际生活,

效果良好,且可为后续问题奠定基础。

针对问题二,主要需要根据已有影响因素对用户的评分进行预测,并解释预测的合理性。

本文首先结合问题一量化结果以及建立模型,对数据进行解释,确定特

征个数;之后建立XGBoost,并得出各影响因素的重要性,与随机森林模型结合分析,

确定特征的选择;再建立KNN、SVM、LightGBM以及,对数据进

行学习分析;随后,对各个模型进行,模型准确率均有大幅度提升,如随机森林

11.69%,14.25%,效果良好。再者,以模型的准确率、

平均绝对误差、均方误差为标准,选择表现较优的模型作为Stacking的基模型,同

时选择余下的一个模型作为第二层模型,在提升准确率的同时,避免过拟合。同时对其采用

,验证其。Stacking集成学习结果符合预期效果,各评分预测模型效果

见表10,明显优于单一模型。在保证准确率的同时,预测的平均绝对误差、均方误差

,同时本文还注重结果的可解释性及模型的现实意义。最后,本文进行,绘

制原始数据及预测数据评分人数,查看数据分布,绘制模型的

、、ROC/AUC,多方面评估模型效果及解释模型的合理性。综合上述分

析,可以确认模型效果良好,具有良好的稳健性、泛化能力。

最后,本文对所建立的模型的优缺点进行了中肯的评价、提出了模型的改进措施以及对

模型进行了一定推广。

关键词:影响程度量化分析;特征工程;Stacking集成学习;评分预测;可视化评估

目录

一、问题的提出...............................................1

1.1问题背景.......................................1

1.2问题要求.......................................1

二、问题的分析...............................................1

2.1问题的整体分析....................................1

2.2问题一的分析..............

您可能关注的文档

文档评论(0)

数学建模-赛道做 + 关注
实名认证
服务提供商

各类数学建模竞赛-文档,及优秀论文分享

1亿VIP精品文档

相关文档