- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘要
计算机、通信技术的飞速发展,加速了互联网和通讯网的融合,由此带来
的是在线社交网络日益成为人们沟通交流、交友等的重要平台,人们对于通信
服务的需求也迅速攀升,这给电信行业带来了一系列的机遇。同时又由于市场
的饱和、行业服务趋于同质化等因素的影响加剧了电信企业之间的竞争,客户
更是成为了稀缺资源,增加新客户变得愈加困难,所以如何稳定住现有的客户
不流仍然是各大电信企业关注的焦点问题。而且增加新的客户所花费的成本高
于保留老客户的成本,老客户的流失会给企业带来许多损失,所以研究预测客
户的流失模型是有必要且有意义的。国内外的专家学者也已经对此进行了大量
的研究并取得了许多有价值、可供参考的成果。同时,数据挖掘技术的发展为
企业探究预测客户流失模型提供了大量的理论方法支持。本文先对数据挖掘这
一领域做了概述,了解了相关的概念、流程和应用功能。鉴于电信客户流失问
题本质上是一个二分类问题,所以将应用数据挖掘中的分类方法来解决,在众
多分类方法中,选择了运用机器学习方法来解决。因此,在第三章对第四章进
行实证分析时所用到的机器学习理论逐一做了介绍,包括先研究了建模前进行
数据准备的数据预处理方法,接下来着重探讨和总结归纳了机器学习中的单一
模型包括k-近邻模型、朴素贝叶斯模型、CART 决策树模型、Logistic 回归模
型以及集成学习模型包括Adaboost 模型、梯度提升树模型和随机森林模型主要
在解决二分类问题时背后的数学、统计学等原理,总结归纳了上述算法的实现
步骤以及在实践应用中的优缺点等。
在理解了理论方法的适用范围及其优缺点后,在真实的数据集上进行实证
研究。在建立模型前,先具体了解了数据的基本信息包括统计信息、缺失率等,
然后在此基础上进行了数据预处理,包括部分特征变量的删除、缺失值的填充,
分类型变量的哑编码等,最终通过梯度提升树算法选择出了对模型预测结果影
响最重要的21个特征变量,作为模型的最终输入。将数据集划分为训练集和测
试集后,通过训练集对上述各个单一学习模型和集成学习模型进行训练。用
AUC值来作为模型性能的评估指标,并以此为根据对模型做出初步选择,同时
I
摘要
对比各个模型性能的优劣,发现单一模型的AUC值均低于集成学习模型的AUC
值,集成学习模型当中梯度提升树模型的表现最好,因此将梯度提升树作为最
终的预测模型。结合带交叉验证的网格搜索法和交叉验证法通过调参来优化模
型,最终获得了表现较优的模型。最后文章在结尾处对全文做了总结与展望。
关键词 电信客户流失;数据挖掘;机器学习;梯度提升树;AUC
II
目录
目录
摘要················································································· I
Abstract········································································ III
第1章 绪论·······································································1
1.1 研究背景及意义·······································································1
1.1.1研究背景····························································································1
1.1.2研究意义····························································································2
1.2 国内外研究成果
文档评论(0)