电信行业数据挖掘培训(第二版) .pptVIP

下载本文档

7
0
约 74页
2015-08-18 发布于河南
举报
版权申诉

电信行业数据挖掘培训(第二版) .ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

电信行业数据挖掘培训(第二版) .ppt

中国电信精确营销系统建设方案数据挖掘应用专题客户流失预警时间窗口咨询工具在数据挖掘中的应用应用举例：应用BCG分析中国移动增值业务现状应用BCG矩阵分析交叉销售应用BCG矩阵分析某省公司各分公司业务发展情况一：中国移动数据挖掘项目介绍什么是数据挖掘通往数据挖掘高手之路 CRISP-DM（Cross-Industry Standard Process for Data Mining）具体流程如下图：一：中国移动数据挖掘项目介绍商业理解高价值客户流失预测模型分析过程在选择预测数据还要注意的几点 1 并非所有用户都需要建模，当前已经表现出手机业务状态不正常的用户，未来离网的可能行很大了，就没必要作为建模的目标用户，如果选用了会影响对其它正常用户的预测，因为相对不正常用户来说，正常用户未来的离网概率要小的多，预测时就不认为这些用户离网概率高了。除不正常用户外，还用一些内部员工，测试用户等都要剔除。 2 对建模用户的细分。不要把所有用户都放在一个预测模型，因为很多高端用户的离网预测率就会很低，当把他们和低端用户放在一起预测时。在具体预测时，可以用ARPU来划分群，或者通过某一特定的套餐来细分数据理解预测模型输入变量列表之一：　　建议预测模型输入变量列表之二：数据准备数据准备　　　　　　　　　　　　　　我们从数据仓库中抽取了流失基础客户群、客户基本资料、用户缴费资料、用户投诉资料、用户帐单、用户通话资料等信息形成六张基表，然后根据用户编号和帐务年月进行连接形成总表。在总表的基础上，进一步派生出比率字段并进行离散化形成标志字段。建模建立多终算法建立模型，并选择最优模型经过以上的分析处理过程，我们可以看到移动高价值客户流失预测使用的变量众多，数据复杂。根据各种算法的特点，即神经元网络适合处理、解决包含众多参数的问题。而决策树的结构和规则推理的过程较易理解，因此我们估计利用神经元网络建立的预测模型将会有较好的效果，但为了对比其效果，我们也利用C5.0和CR Tree来建立预测模型。评估检查选择的离网预测模型使用可用命中率：每组客户中被准确预测为离网（预测离网并且真正离网）的客户占全组客户总数的百分比。查全率：每组客户中被准确预测为离网的客户占样本数据中离网客户总数的百分比。 Lift＝每组客户的命中率/不使用模型时的离网率。若该值大于1，该组的预测可用。在移动经营分析系统高价值客户用户离网预测中：检验集是从样本数据中随机抽取10000人作为检验集，在检验集中有10000条记录，实际离网人数412, 离网率4.12%，使用离网模型计算出用户的离网概率，按照由高到低排序。等分20组，每组500人，计算每组的命中率、查全率和Lift。平均每组有21人离网。(412/20= 21)。利用最终的神经元网络模型对选定的高价值客户的离网概率进行打分，给出离网概率高的客户名单，交相关人员做客户挽留工作。模型部署一：中国移动数据挖掘项目介绍客户根据自身所具有的特征自动聚为一些行为特点相似的群体为什么要建立客户行为细分模型客户细分是精细化营销的基础客户行为细分模型通过上百个变量描述客户商业理解对某市数十万公众客户，从行为的分析维度进行客户分群，以了解不同客户群的消费行为特征，为发展新业务、流失客户保有、他网用户争夺的针对性营销策略的制订提供分析依据，并实现企业保存量、激增量的战略目标商业理解之如何选择细分变量细分变量准备之一细分变量准备之二宽表生成流程数据准备之标准化变量 Sigmoid的公式如下，通过Sigmoid变换，会对变量的最大值和最小值进行比较大的压缩，而中间的数据压缩率不会很高。经过Sigmoid变换会消除一些奇异值的影响，当然也可能丢失一些信息。因为实际上如果x36，f(x)就几乎等于1；同样x-36，f(x)就几乎等于0。所以我们最好不要直接对原始变量进行Sigmoid变换，丢失的信息太多。本次分析采用了先Zscore再进行Sigmoid变换的方式。细分结果数据表——描述变量（一）细分结果数据表——描述变量（二）细分结果数据表——描述变量（三）组1：低使用率组组6 短信高使用组以Spss clemetine11 作为数据挖掘工具，使用测试数据，演示客户细分的整个过程！对于聚类分析来说，输入的变量量纲不同，会对结果造成很大影响。因此在聚类分析之前需要对所有参预聚类的变量进行标准化处理。这里着重介绍本次分析中用到的两种方法：Zscore和Sigmoid。 Zscore方法的公式如下，变量的每个值减去变量均值再除以标准差，得到的结果其实是标志一个值距离中心（均值）的距离是标准差的几倍。这是统计学中非常经典的