- 16
- 0
- 约7.29万字
- 约 66页
- 2024-04-02 发布于江西
- 举报
摘要
摘要
近年来,国内电信行业在经历了各种整合、拆分与淘汰后,最终由三大运营
商占据电信市场。在这种局面下,对老客户进行挽留与营销比重新去挖掘新客户
的成本低得多,因此电信行业为了控制公司的总体利润进而考虑成本,会更加重
视客户的流失问题。目前对于解决客户流失问题的研究主要集中在传统机器学习,
大部分研究者都只是把客户流失当成一个二分类问题研究,而对于电信客户入网
后的在网时长这个特征并没有过多使用。故本文主要通过生存分析方法,尤其是
深度生存分析算法对电信客户的生存时间加以研究,进而可以更高效的对客户流
失状态进行预测。
传统的生存分析模型主要运用在工程学、生态学、医学、经济学等领域,主
要研究协变量与事件发生时间的关系。在电信客户流失问题上也就是影响客户流
失的各协变量与电信客户生存时间之间的关系,从而进一步研究电信客户的流失
状态。生存分析对生存时间的利用,使得它相比其他机器学习模型来说更适合研
究电信客户流失问题。由于电信行业特征数据较为复杂,Cox回归模型仅利用了
特征的线性信息,并没有利用特征的非线性信息,所以在早期的研究中为了进一
步利用特征的非线性信息,有研究人员把深度学习方法应用在生存分析中,但研
究主要集中在医学领域。电信领域的数据以月为单位进行生成,是一种时序特征
数据,为了进一步挖掘电信客户领域时序特征的信息,提高神经网络处理信息的
能力和大数据集下的网络训练效率。本文在之前较为成熟的深度生存分析的基础
之上,结合LSTM算法以及Attention机制方法(Lads模型)后对电信领域中发
生客户流失进行预测。其中将LSTM算法作为特征提取器,进行时序特征信息
的预处理,而Attention机制方法主要增加模型的可解释性。并通过C-index值在
电信客户真实数据集上进行消融实验验证,可以发现加入了前馈神经网络后的
CPH模型相比传统的CPH模型预测效果提升了7.1%,说明对用户非线性信息的
充分利用可以很好的提高模型预测能力。在电信客户时序特征信息的利用方面,
我们还可以看到通过LSTM算法提取时序特征后结合CPH模型(LSTM+CPH)的
C-index值为0.781,该模型比单纯的CPH模型预测效果提高了7.9%。并且通过
I
摘要
LSTM算法提取时序特征后结合前馈神经网络的模型(LSTM+DeepSurv)的
C-index值为0.850,该模型比单纯的前馈神经网络DeepSurv模型的预测效果提
高了7.7%。由此可以看出,电信的时序特征所包含的时间信息对于模型训练十
分重要,即加入LSTM算法提取电信客户时序特征信息不管在CPH模型上还是
DeepSurv上都得到了提升预测效果的验证。实验还发现将Attention机制方法与
DeepSurv模型进行结合所得模型(Attention+DeepSurv)相比单纯的前馈神经网络
DeepSurv模型的预测效果提高0.9%。本文提出的Lads模型既考虑了用户的非线
性信息,又纳入了用户的时序特征,同时还加入了注意力机制自动分配权重,实
验后得到其C-index值达到了0.857,是所有模型中效果最好的。Lads模型预测
能力相比没有加入LSTM算法的预测模型效果提高了7.5%,并相比没有Attention
机制技术的预测模型效果提高了0.7%。最终可以得到Lads模型方法在电信客户
流失问题上通过了消融实验验证,具有很强的预测能力,证明了该模型预测效果
在电信客户流失单一风险中得到了显著提高。
关键词生存分析;客户流失;Cox回归;DeepSurv;LSTM
II
Abstract
Abstract
XuFeng
MasterofAppliedStatistics
原创力文档

文档评论(0)