基于深度生存分析的电信客户流失研究.pdfVIP

  • 16
  • 0
  • 约7.29万字
  • 约 66页
  • 2024-04-02 发布于江西
  • 举报

基于深度生存分析的电信客户流失研究.pdf

摘要

摘要

近年来,国内电信行业在经历了各种整合、拆分与淘汰后,最终由三大运营

商占据电信市场。在这种局面下,对老客户进行挽留与营销比重新去挖掘新客户

的成本低得多,因此电信行业为了控制公司的总体利润进而考虑成本,会更加重

视客户的流失问题。目前对于解决客户流失问题的研究主要集中在传统机器学习,

大部分研究者都只是把客户流失当成一个二分类问题研究,而对于电信客户入网

后的在网时长这个特征并没有过多使用。故本文主要通过生存分析方法,尤其是

深度生存分析算法对电信客户的生存时间加以研究,进而可以更高效的对客户流

失状态进行预测。

传统的生存分析模型主要运用在工程学、生态学、医学、经济学等领域,主

要研究协变量与事件发生时间的关系。在电信客户流失问题上也就是影响客户流

失的各协变量与电信客户生存时间之间的关系,从而进一步研究电信客户的流失

状态。生存分析对生存时间的利用,使得它相比其他机器学习模型来说更适合研

究电信客户流失问题。由于电信行业特征数据较为复杂,Cox回归模型仅利用了

特征的线性信息,并没有利用特征的非线性信息,所以在早期的研究中为了进一

步利用特征的非线性信息,有研究人员把深度学习方法应用在生存分析中,但研

究主要集中在医学领域。电信领域的数据以月为单位进行生成,是一种时序特征

数据,为了进一步挖掘电信客户领域时序特征的信息,提高神经网络处理信息的

能力和大数据集下的网络训练效率。本文在之前较为成熟的深度生存分析的基础

之上,结合LSTM算法以及Attention机制方法(Lads模型)后对电信领域中发

生客户流失进行预测。其中将LSTM算法作为特征提取器,进行时序特征信息

的预处理,而Attention机制方法主要增加模型的可解释性。并通过C-index值在

电信客户真实数据集上进行消融实验验证,可以发现加入了前馈神经网络后的

CPH模型相比传统的CPH模型预测效果提升了7.1%,说明对用户非线性信息的

充分利用可以很好的提高模型预测能力。在电信客户时序特征信息的利用方面,

我们还可以看到通过LSTM算法提取时序特征后结合CPH模型(LSTM+CPH)的

C-index值为0.781,该模型比单纯的CPH模型预测效果提高了7.9%。并且通过

I

摘要

LSTM算法提取时序特征后结合前馈神经网络的模型(LSTM+DeepSurv)的

C-index值为0.850,该模型比单纯的前馈神经网络DeepSurv模型的预测效果提

高了7.7%。由此可以看出,电信的时序特征所包含的时间信息对于模型训练十

分重要,即加入LSTM算法提取电信客户时序特征信息不管在CPH模型上还是

DeepSurv上都得到了提升预测效果的验证。实验还发现将Attention机制方法与

DeepSurv模型进行结合所得模型(Attention+DeepSurv)相比单纯的前馈神经网络

DeepSurv模型的预测效果提高0.9%。本文提出的Lads模型既考虑了用户的非线

性信息,又纳入了用户的时序特征,同时还加入了注意力机制自动分配权重,实

验后得到其C-index值达到了0.857,是所有模型中效果最好的。Lads模型预测

能力相比没有加入LSTM算法的预测模型效果提高了7.5%,并相比没有Attention

机制技术的预测模型效果提高了0.7%。最终可以得到Lads模型方法在电信客户

流失问题上通过了消融实验验证,具有很强的预测能力,证明了该模型预测效果

在电信客户流失单一风险中得到了显著提高。

关键词生存分析;客户流失;Cox回归;DeepSurv;LSTM

II

Abstract

Abstract

XuFeng

MasterofAppliedStatistics

文档评论(0)

1亿VIP精品文档

相关文档