基于径向基采样策略的电信客户流失预警.pdfVIP

  • 1
  • 0
  • 约8.87万字
  • 约 60页
  • 2024-04-02 发布于江西
  • 举报

基于径向基采样策略的电信客户流失预警.pdf

摘要

摘要

在电信客户流失问题中,客户流失管理能为公司留住有价值客户,对提高企

业收益具有重大意义,是公司最关注的问题之一。因此进行客户流失预测研究是

有必要的。在近几年的研究中,预测流失客户时应用了越来越多的数据挖掘分类

技术,并已证明了机器学习对客户流失预测的适用性。客户流失预测是数据挖掘

中常见的二分类任务。同时,由于流失客户占比极小,客户流失问题也是不平衡

学习问题。

在大多真实数据集的分类任务中,数据类别间的样本量往往是不等的,且类

间样本量差异较大。传统机器学习模型擅长训练类间平衡的数据,现有模型针对

不平衡数据效果不佳,从而引起了有关不平衡学习的研究。不平衡学习的目标是

从许多的类不平衡数据集中学习无偏分类模型。然而,由于数据分布受噪声和边

界样本的影响,许多基于启发式假设的传统重采样方法在实际分类任务中缺乏实

用性且准确性较低。为了有效地解决这些问题,针对非平衡数据集,本文在径向

基过采样(RBO)方法的基础上,提出了一种分层径向基过采样(SRBO)方法,

以及一种径向基混合采样(RBU-RBO)方法。分别在公开数据集、电信宽带客

户流失真实数据集上验证各采样方法的性能。

在公开数据集上,从数据层的采样方法着手,本文首先将少数类样本划分为

安全点、危险点和噪音点,并根据这三类样本的数量分配生成新样本的个数,然

后基于径向基过采样(RBO)方法生成新样本。在十个不平衡公共数据集上,与

ADASYN、SMOTE两种经典重采样方法,通过五种评价指标数值结果的对比,

证明了SRBO方法在有效性和准确性方面表现了可比或更好的结果。

在电信宽带客户流失数据集上,首先进行数据清洗、特征选择。然后对该不

平衡数据通过SRBO、RBU-RBO方法进行采样处理。通过对比随机森林、XGBoost

分类器的五种评价指标的数据结果,进一步验证了SRBO方法的性能优于其他

采样方法。同时,也证实了该方法在一定程度上解决了由于数据不平衡使客户流

失预测效果不佳的问题。

关键字:过采样;混合采样;径向基函数;数据分层;电信宽带客户流失

I

Abstract

Abstract

ShuangSong

MasterofAppliedStatistics

DirectedbyZhiyongZeng

Intheproblemoftelecommunicationcustomerchurn,customerchurn

managementcanretainvaluablecustomersforthecompany,whichisofgreat

significancetoimprovecorporateprofits,andisoneofthemostconcernedissuesfor

companies.Therefore,itisnecessarytoconductcustomerchurnpredictionresearch.

Inrecentyearsofresearch,moreandmoredataminingclassificationtechniqueshave

beenappliedtopredictchurn,andtheapplicabilityofmachinelearningtochurn

predictionhasbeendemonstrated.Customerchurnpredictionisacommonbinary

classificationtaskindatamining.Atthesametime,sincetheproportionoflost

customersisextremelysmall,the

文档评论(0)

1亿VIP精品文档

相关文档