- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
队伍编号
MCB2201502
赛道
(B)
基于集成机器学习模型的用户体验打分预测研究
摘要
本文以用户体验为研究对象,对打分预测进行分析研究,基于分层聚类法、K近邻密度峰值聚类、集成机器学习模型和Stacking融合等方法,通过MATLAB、SPSSPRO、Origin、Lingo和SPSS等软件较好地解决了用户评分数据中异常值的检测以及用户体验打分的预测,并由此对移动通讯公司提供了若干决策意见,从而达到了更加全面地提高用户满意度的目的。
为解决问题提供一定的数据基础,本文首先对移动用户打分数据中非球形数据进行非线性Box-Cox变换,依据变换后的球型数据进行特征缩放。基于预处理后的用户样本数据采用SMOTE过采样优化,SMOTE优化后的逻辑回归算法分类效果如REF_Ref129464954\h表4所示,数据表明SMOTE和SMOTETomek方法可以成功地解决由于类不平衡导致的分类器泛化能力弱的问题。
针对问题一,首先基于SMOTE过采样优化后用户打分数据,采用分层聚类法对用户打分高低层次进行划分,通过聚类谱系图确定聚类的距离标度,结果见图3-4,聚类评价指标Sil系数均超过0.836,聚类效果呈现显著性;用户打分高低的聚类结果如REF_Ref129466345\h图5所示,用户打分高聚类组占比超过总体的89.9%,表明用户在语音业务和上网业务满意度方面具有良好体验;基于随机森林与XGBoost对用户特征进行筛选,高低用户特征重要度对比见REF_Ref129466331\h图6。其次,在用户打分异常值的检测过程中,建立一种基于K近邻密度峰值聚类的用户异常值检测模型,通过DPC算法搜索局部密度阈值,从而判定用户打分的异常值,用户打分数据异常值识别程度如REF_Ref129466364\h表7所示,数据表明异常值检测的识别程度呈现显著性效果。然后,对用户体验打分预测建立集成机器学习模型(XGBoost、GBDT和RUSBoost),在多分类模型评估指标最中引入了Micro-F1、Macro-F1,之后对训练完成的三个基学习器进行Stacking融合,模型得分情况如REF_Ref129466801\h表11所示,数据表明stacking融合模型的F1预测值在四个分类器中最高,均达到75%以上,学习效果更好。最后对用户体验打分预测模型进行了灵敏度分析和稳健性检验,进一步提高模型的精准度和鲁棒性。
针对问题二,基于用户体验打分预测的分析和结果,为中国移动北京公司提供了一份非技术报告。
在移动互联网普及并快速发展的背景下,移动通讯公司怎样改善用户对语音及上网满意度,而构建用户体验打分预测模型具有非常重要的理论意义与实践意义。
关键词:用户体验;分层聚类;K近邻密度峰值聚类;集成机器学习;Stacking融合
目录
TOC\o1-3\h\z\u一、问题重述 1
1.1研究背景 1
1.2文献综述 1
1.3研究的问题 1
二、研究思路 1
2.1问题一的分析 1
2.2问题二的分析 2
三、模型假设 3
四、符号说明 3
五、初赛回顾和数据预处理 3
5.1初赛回顾 4
5.1.1用户体验打分影响因素的结果 4
5.1.2用户体验打分预测的结果 5
5.1.3复赛的目标 5
5.2样本数据的结构优化 6
5.2.1非线性Box-Cox变换 6
5.2.2特征缩放 8
5.2.3SMOTE过采样优化 8
六、基于分层聚类-XGBoost对用户特征的研究 10
6.1基于分层聚类法的用户打分高低层次划分 10
6.1.1模型的建立 10
6.1.2聚类评价指标 11
6.1.3模型合理性的评价 12
6.1.4用户打分高低划分的结果与探讨 12
6.2高低用户的特征筛选 12
6.2.1基于随机森林的用户特征筛选 12
6.2.2基于XGBoost的用户特征筛选 13
6.2.3模型对比与结果分析 13
七、基于K近邻密度峰值聚类的用户异常值检测 13
7.1密度峰值聚类算法 13
7.2基于K近邻密度峰值聚类的用户异常值检测算法 14
7.2.1基于K近邻的密度峰值聚类算法 14
7.2.2异常值检测原理 15
7.2.3异常值检测流程 15
7.3模型的识别与结果 15
八、基于集成机器学习模型对用户体验打分预测 16
8.1模型评估指标体系 16
8.1.1F1分数 16
8
您可能关注的文档
- A2401090_23年妈妈杯大数据一等奖.docx
- B2201502妈妈杯大数据一等奖.pdf
- B2201502非技术报告妈妈杯大数据一等奖.pdf
- RUSBoost预测精准度妈妈杯大数据一等奖.xlsx
- XGBoost预测精准度妈妈杯大数据一等奖.xlsx
- GBDT预测精准度妈妈杯大数据一等奖.xlsx
- RUSBoost预测精准度妈妈杯大数据一等奖.xlsx
- A2401090妈妈杯大数据一等奖.pdf
- 基于自闭症儿童认知特性的干预教育App交互设计.docx
- 基于微信小程序的运城文旅社交平台.docx
- 2025 年大学审计学(审计理论)试题及答案.doc
- 2025 年大学人工智能(智能算法应用)试题及答案.doc
- 2025 年大学审计学(审计学)试题及答案.doc
- 2025 年大学社会学(社会工作概论)试题及答案.doc
- 消费电子行业基于产品生命周期理论的KOL合作策略研究.docx
- 女性主义视域下《红楼梦》人物意识觉醒的双重路径——基于林黛玉与王熙凤的对照研究.docx
- 基于多元统计分析的数字经济对山西省绿色发展的影响.docx
- 生态主题班会对初中生塑料瓶减量行为的影响——基于外语实验中学的实证分析.doc
- 幼儿舞蹈教学方法对其综合素质影响的实证研究——基于hs幼儿园的案例分析.docx
- 基于图神经网络的蛋白质-配体结合亲和力预测研究.docx
最近下载
- 2024版静脉输液治疗标准指南解读PPT课件.pptx VIP
- dbj41 免拆复合保温模板应用技术规程.pdf VIP
- dbj41 装配整体式叠合剪力墙结构技术标准.docx VIP
- 武汉纺织大学2020级土木工程专业《建筑材料》期末试卷.docx VIP
- 风景谈考试题及答案.doc VIP
- DBJ04 山西省工程建设地方标准 (68).pdf VIP
- DBJ15-19-97 建筑防水工程技术规程.docx VIP
- DBJ04 建筑防烟排烟系统技术标准.docx VIP
- FusionServer 2288H V6 服务器 技术白皮书 04.pdf VIP
- 国家安全教育心得体会简洁版5篇.docx VIP
原创力文档


文档评论(0)