B2201502_复赛1妈妈杯大数据一等奖.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

队伍编号

MCB2201502

赛道

(B)

基于集成机器学习模型的用户体验打分预测研究

摘要

本文以用户体验为研究对象,对打分预测进行分析研究,基于分层聚类法、K近邻密度峰值聚类、集成机器学习模型和Stacking融合等方法,通过MATLAB、SPSSPRO、Origin、Lingo和SPSS等软件较好地解决了用户评分数据中异常值的检测以及用户体验打分的预测,并由此对移动通讯公司提供了若干决策意见,从而达到了更加全面地提高用户满意度的目的。

为解决问题提供一定的数据基础,本文首先对移动用户打分数据中非球形数据进行非线性Box-Cox变换,依据变换后的球型数据进行特征缩放。基于预处理后的用户样本数据采用SMOTE过采样优化,SMOTE优化后的逻辑回归算法分类效果如REF_Ref129464954\h表4所示,数据表明SMOTE和SMOTETomek方法可以成功地解决由于类不平衡导致的分类器泛化能力弱的问题。

针对问题一,首先基于SMOTE过采样优化后用户打分数据,采用分层聚类法对用户打分高低层次进行划分,通过聚类谱系图确定聚类的距离标度,结果见图3-4,聚类评价指标Sil系数均超过0.836,聚类效果呈现显著性;用户打分高低的聚类结果如REF_Ref129466345\h图5所示,用户打分高聚类组占比超过总体的89.9%,表明用户在语音业务和上网业务满意度方面具有良好体验;基于随机森林与XGBoost对用户特征进行筛选,高低用户特征重要度对比见REF_Ref129466331\h图6。其次,在用户打分异常值的检测过程中,建立一种基于K近邻密度峰值聚类的用户异常值检测模型,通过DPC算法搜索局部密度阈值,从而判定用户打分的异常值,用户打分数据异常值识别程度如REF_Ref129466364\h表7所示,数据表明异常值检测的识别程度呈现显著性效果。然后,对用户体验打分预测建立集成机器学习模型(XGBoost、GBDT和RUSBoost),在多分类模型评估指标最中引入了Micro-F1、Macro-F1,之后对训练完成的三个基学习器进行Stacking融合,模型得分情况如REF_Ref129466801\h表11所示,数据表明stacking融合模型的F1预测值在四个分类器中最高,均达到75%以上,学习效果更好。最后对用户体验打分预测模型进行了灵敏度分析和稳健性检验,进一步提高模型的精准度和鲁棒性。

针对问题二,基于用户体验打分预测的分析和结果,为中国移动北京公司提供了一份非技术报告。

在移动互联网普及并快速发展的背景下,移动通讯公司怎样改善用户对语音及上网满意度,而构建用户体验打分预测模型具有非常重要的理论意义与实践意义。

关键词:用户体验;分层聚类;K近邻密度峰值聚类;集成机器学习;Stacking融合

目录

TOC\o1-3\h\z\u一、问题重述 1

1.1研究背景 1

1.2文献综述 1

1.3研究的问题 1

二、研究思路 1

2.1问题一的分析 1

2.2问题二的分析 2

三、模型假设 3

四、符号说明 3

五、初赛回顾和数据预处理 3

5.1初赛回顾 4

5.1.1用户体验打分影响因素的结果 4

5.1.2用户体验打分预测的结果 5

5.1.3复赛的目标 5

5.2样本数据的结构优化 6

5.2.1非线性Box-Cox变换 6

5.2.2特征缩放 8

5.2.3SMOTE过采样优化 8

六、基于分层聚类-XGBoost对用户特征的研究 10

6.1基于分层聚类法的用户打分高低层次划分 10

6.1.1模型的建立 10

6.1.2聚类评价指标 11

6.1.3模型合理性的评价 12

6.1.4用户打分高低划分的结果与探讨 12

6.2高低用户的特征筛选 12

6.2.1基于随机森林的用户特征筛选 12

6.2.2基于XGBoost的用户特征筛选 13

6.2.3模型对比与结果分析 13

七、基于K近邻密度峰值聚类的用户异常值检测 13

7.1密度峰值聚类算法 13

7.2基于K近邻密度峰值聚类的用户异常值检测算法 14

7.2.1基于K近邻的密度峰值聚类算法 14

7.2.2异常值检测原理 15

7.2.3异常值检测流程 15

7.3模型的识别与结果 15

八、基于集成机器学习模型对用户体验打分预测 16

8.1模型评估指标体系 16

8.1.1F1分数 16

8

文档评论(0)

数学建模-赛道做 + 关注
实名认证
服务提供商

各类数学建模竞赛-文档,及优秀论文分享

1亿VIP精品文档

相关文档