- 1、本文档共103页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于Stacking融合模型的电信高端客户流失分析与预测
摘要
随着大数据与人工智能时代的到来,我国的互联网通信产业得到了迅猛发
展,其中电信服务在人群中的覆盖率日益增高,网络用户基数的“井喷式”暴涨
导致企业拓展新用户的难度与日俱增,在行业竞争加剧、市场日趋饱和的冲击下,
最大限度避免客户流失并采取有效对策进行挽留是运营商提升经营利润的必要
手段。因此,如何在海量数据中挖掘出电信高端客户信息,并构建客户流失预测
模型精准捕捉流失风险便显得至关重要。
本文以电信高端客户作为切入点,首先,根据用户生命周期理论将原始数据
集划分为“良好”、“行动”与“流失”三个阶段,利用第一阶段的电信充值金
额筛选出高端客户并对其作出流失与否的标记;其次,对数据集进行偏态纠正、
WrapperPCA
包装法、主成分降维等一系列预处理与特征工程操作;将处理后的
数据集分别导入Logistic回归、KNN、RandomForest、SVM、XGBoost、LightGBM、
CatBoost7
共个单一分类器中依次构建模型,采取五折交叉验证法与网格搜索法
寻找各模型的最优参数组合,并结合准确度、精准率、召回率、F-score与AUC
1
值评估各模型的分类效果及泛化性能。结果发现:Logistic回归模型的预测效果
不甚理想,遂将其剔除;接下来将RandomForest、SVM、XGBoost、LightGBM、
CatBoost5KNNStacking
共个模型纳入基学习器,模型纳入元学习器,构建双层
融合模型,再次利用评估指标判定融合后模型的预测效果,发现各指标数值均超
0.9Stacking
过了,性能达到最优。因此可将融合模型应用于客户流失问题的管
控与规避层面,基于分析结果提供合理建议,从而真正将挽留方案落实到位。最
XGBoostLightGBM
后,从基学习器中筛选出分类效果较优的两个单一算法:与,
分别绘制二者的特征贡献度排名图像,再从排名前十的特征中提炼出在两个模型
4
中重复出现的个指标,将它们作为影响高端客户流失的显著变量。
研究结果表明:对电信高端客户流失影响最显著的4个特征分别为:8月用
886-7
户平均接听通话时长、月用户平均收入、月用户平均漫游呼出通话时长、
月用户平均漫游呼出通话时长。此外,在7个单一分类算法中,CatBoost算法的
预测能力最佳,表现最优,且对于流失客户的捕捉力度最大;而Stacking融合模
型在此基础上进一步将泛化性能提升到了极点,AUC值一度增加至0.988,实现
了分类效果的最优化。本文从侧面论证了Stacking融合模型在客户流失问题上发
挥的巨大作用,其具有良好的实践意义与参考价值。
关键词:电信高端客户;特征工程;五折交叉验证法;Stacking融合模型
I
Churnanalysisandpredictionoftelecompremium
customersbasedonStackingfusionmodel
Abstract
Withtheadventoftheeraofbigdataandartificialintelligence,ChinasIntern
文档评论(0)