基于分类技术的电信客户流失预测的答辩学案.ppt

基于分类技术的电信客户流失预测的答辩学案.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于分类技术的电信客户流失预测的研究 答辩人: 框架 1 摘要、关键字:中英文 2 3 决策树算法基本概述 4 构造决策树 5 总结与后需改进工作 6 引言 数据预处理 7 8 致谢 参考文献 第一章 引言 1.研究背景和意义 主要介绍了中国电信业的市场环境,提出了各大运营商正在寻找一种更有效的办法来建立与客户的关系,引出了研究的课题:基于分类技术的电信客户流失预测的研究。 2.国内外应用和研究现状 主要介绍了数据挖掘技术在国内外各大行业的应用研究,并说明了数据挖掘技术在运用方面仍有一些不足之处。 3.研究方法 数据收集:获得项目资源需求的数据 数据准备:对数据的选择、操作处理等 数据建模:分类分析中的决策树算法 模型评估:手工计算建模、挖掘工具挖掘建模 第二章 决策树算法基本概述 1.决策树算法的提出和发展 2.决策树算法的概念 3.决策树的优缺点 第三章 数据预处理 1、 数据预处理概述 现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,为了提高数据挖掘的质量产生了数据预处理技术。 2、数据的商业理解 电信行业中,客户流失是CRM(客户关系管理)中客户生命周期的最后一个阶段,一般可以分为两类:一类为自愿流失;另一类为非自愿流失。 3、数据预处理方法 数据清理 数据集成 数据变换 数据归约 第四章 构造决策树 1、决策树分类的步骤 两步: 第1步:利用训练集建立并精化一棵决策树,建立决策树 模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。 第2步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。 2、建模 输入数据 输出类型 手工计算验证 SQL Server Business Intelligence Development Studio工具验证 实验结论分析 年龄 学历 职业 缴费方式 开户时间 费用变化率 客户流失 N3 W3 Z1 T1 H2 F1 NO N2 W2 Z2 T2 H2 F2 NO N1 W3 Z1 T3 H1 F2 YES N1 W3 Z1 T2 H1 F1 NO N1 W1 Z2 T2 H1 F1 NO N2 W2 Z3 T3 H1 F3 YES N3 W1 Z3 T1 H2 F1 NO 输入数据: 属性概化:用属性概化阈值控制技术沿属性概念分层上卷或下钻进行概化。文化程度分为3类:W1初中以下(含初中),W2高中(含中专),W3大学(专科、本科及以上);职业类别:按工作性质来分共分3类:Z1一Z3;缴费方式:托收:T1,营业厅缴费:T2,充值卡:T3。 连续型属性概化为区间值:表中年龄、费用变化率和在网时间为连续型数据,由于建立决策树时,用离散型数据进行处理速度最快,因此对连续型数据进行离散化处理,根据专家经验和实际计算信息增益,在“在网时长”属性中,通过检测每个划分,得到在阈值为5年时信息增益最大,从而确定最好的划分是在5年处,则这个属性的范围就变为{=5,5:H1,H2}。而在“年龄”属性中,信息增益有两个锋值,分别在40和50处,因而该属性的范围变为{=40,40-=50,50}即变为{青年,中年,老年:N1,N2,N3};费用变化率:指((当月话费-近3个月的平均话费)/近3个月的平均话费)×%0,F1:=30%,F2:30%-99%, F3:=100%变为{F1,F2,F3}。 输出类型: 在本文中我们需要通过SQL Server Business Intelligence Development Studio工具进行数据挖掘,因此我们把输出类型选为“Microsoft决策树”。 手工计算验证: 条件属性共有6个。分别是年龄、学历、职业、缴费方式、开户时间、费用 变化率。分别计算不同属性的信息增益。 比较上述6个条件属性的信息增益值,其中费用变化率信息增益值最大,因此作为决策树的根节点;重复上述步骤,直至遍历所有属性,得出最终决策树。 分析:在图中,NO表示客户不流失,YES表示客户流失。从图可以看出,客户费用变化率为100%的客户肯定已经流失;而费用变化率低于30%的客户;即每月资费相对稳定的客户一般不会流失,费用变化率在30%~99%的客户有可能流失,其中年龄在40~50岁之间的客户流失的可能性非常大,而年龄低于40岁的客户,用充值卡缴费的客户和在

您可能关注的文档

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档