- 1
- 0
- 约8.87万字
- 约 60页
- 2024-04-02 发布于江西
- 举报
摘要
摘要
在电信客户流失问题中,客户流失管理能为公司留住有价值客户,对提高企
业收益具有重大意义,是公司最关注的问题之一。因此进行客户流失预测研究是
有必要的。在近几年的研究中,预测流失客户时应用了越来越多的数据挖掘分类
技术,并已证明了机器学习对客户流失预测的适用性。客户流失预测是数据挖掘
中常见的二分类任务。同时,由于流失客户占比极小,客户流失问题也是不平衡
学习问题。
在大多真实数据集的分类任务中,数据类别间的样本量往往是不等的,且类
间样本量差异较大。传统机器学习模型擅长训练类间平衡的数据,现有模型针对
不平衡数据效果不佳,从而引起了有关不平衡学习的研究。不平衡学习的目标是
从许多的类不平衡数据集中学习无偏分类模型。然而,由于数据分布受噪声和边
界样本的影响,许多基于启发式假设的传统重采样方法在实际分类任务中缺乏实
用性且准确性较低。为了有效地解决这些问题,针对非平衡数据集,本文在径向
基过采样(RBO)方法的基础上,提出了一种分层径向基过采样(SRBO)方法,
以及一种径向基混合采样(RBU-RBO)方法。分别在公开数据集、电信宽带客
户流失真实数据集上验证各采样方法的性能。
在公开数据集上,从数据层的采样方法着手,本文首先将少数类样本划分为
安全点、危险点和噪音点,并根据这三类样本的数量分配生成新样本的个数,然
后基于径向基过采样(RBO)方法生成新样本。在十个不平衡公共数据集上,与
ADASYN、SMOTE两种经典重采样方法,通过五种评价指标数值结果的对比,
证明了SRBO方法在有效性和准确性方面表现了可比或更好的结果。
在电信宽带客户流失数据集上,首先进行数据清洗、特征选择。然后对该不
平衡数据通过SRBO、RBU-RBO方法进行采样处理。通过对比随机森林、XGBoost
分类器的五种评价指标的数据结果,进一步验证了SRBO方法的性能优于其他
采样方法。同时,也证实了该方法在一定程度上解决了由于数据不平衡使客户流
失预测效果不佳的问题。
关键字:过采样;混合采样;径向基函数;数据分层;电信宽带客户流失
I
Abstract
Abstract
ShuangSong
MasterofAppliedStatistics
DirectedbyZhiyongZeng
Intheproblemoftelecommunicationcustomerchurn,customerchurn
managementcanretainvaluablecustomersforthecompany,whichisofgreat
significancetoimprovecorporateprofits,andisoneofthemostconcernedissuesfor
companies.Therefore,itisnecessarytoconductcustomerchurnpredictionresearch.
Inrecentyearsofresearch,moreandmoredataminingclassificationtechniqueshave
beenappliedtopredictchurn,andtheapplicabilityofmachinelearningtochurn
predictionhasbeendemonstrated.Customerchurnpredictionisacommonbinary
classificationtaskindatamining.Atthesametime,sincetheproportionoflost
customersisextremelysmall,the
原创力文档

文档评论(0)