ClementineC5.0模型预测CDMA客户流失.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ClementineC5.0模型预测CDMA客户流失 摘要:该文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,通过收集客户的基本数据、消费数据和缴费行为等数据,建立客户流失预测模型,进行客户流失分析及预测。通过对大量相关技术和统计方法的研究,最终确定了clementine的C5.0模型作为电信客户流失的预测模型。此模型对客户流失预测有较高的准确性,为电信经营分析系统作了有益的尝试与探索。 关键词:数据挖掘;客户流失;统计分析;C5.0模型;CDMA客户 1概述 以中国电信云南某公司的项目支撑为基础,从统计数据来看,维持5%的老用户增长,给电信公司带来的利润将远远超过85%,而要想把一位非电信用户发展成客户,其成本将比保留一位老客户的成本高得多,统计数据表明成本是4倍左右,此时,客户对电信的忠实程序也将发生强烈的变化,由此给企业造成的损失将大大增加。从项目的实施情况来看,为了保证成功向客户推销运营商的产品,多数人都只愿意向老客户推销。因为由此付出的代价比用户要小得多,成功率也要高得多。通过这些数据我们可以看到防范老客户的流失相比发展新用户来说就显得尤为重要了,这也是普遍企业最为关注的问题之一。 2研究现状及C5.0模型特点 在我们国内,很多运营商为了应对市场的竞争,多数都己经建立了“电信经营分析系统”,这在一定程序上为深层次的数据分析提供了良好的数据处理分析平台。而目前国内在数据利用上确远远不及国外的层次深,国内的数据应用主要集中在固定报表处理、查询分析和个人的主观探索,在更高领域的应用如数据挖掘还不太成熟,更谈不上深层次的应用。而这些在国外,很多知名的电信运营商却已经能够很好地利用数据挖掘技术,以便通过建立客户流失的模型,提升利润空间及对一些流失概率比较高的客户进行有针对的保留工作,这样做的目的可能有效地控制入网用户的流失。 Clementine作为一个数据挖掘软件,给运营商创造了很好的数据处理应用平台,在此平台下,运营商可以有效地使用一些商业技术准确、快捷地建立预测的模型,而后把由此模型生成的数据使用在推销应用领域。参照行业执行标准CRISP-DM模型,我们可以有效地改进决策过程,这不仅可以数据到更优商业成果的数据挖掘。而且还可以这样可以分析出哪些属性是影响客户流失的重要因素。现在比较流行的流程包括决策树、神经网络、逻辑回归、聚类关联性分析等。本文选择的是C5.0模型节点来进行电信的客户流失预测。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本,目标字段必须为分类字段,允许进行多次多于两个子组的分割。它通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去直到无法继续分割子样本。 C5.0可以生成两种模型: 1)决策树是对由算法建立的分割的简单描述,每个终端(或“叶”)节点可描述训练数据的特定子集,而训练数据中的每个观测值都完全属于树中的某个终端节点。 2)规则集则是尝试对单个记录进行预测的一组规则,规则集源自决策树,并且在某种程度上表示在决策树中建立的经简化或提取的信息版本。对于所存在的问题,例如缺失数据和大量输入字段,C5.0模型十分稳健,通常不需要花费很长的训练时间用于估计。同时C5.0模型与其他模型类型相比更容易理解,解释起来更简明易懂。 3建构并应用C5.0模型 在clementine中使用C5.0模型进行电信客户流失预测的过程包括:找到数据源:本例中数据源为基于Excel的电子表格,打开Clementine,在对话框中选择数据源项,可以直接双击我们要使用的Excel进行编辑,在导入文件中选择要用的数据源。然后在选项板中选择字段节点,进行类型编辑,设置客户流失项为输出项。接下来在建模里根据需要选择合适的特征选项,此时,该节点会根据设置的条件(如缺失的百分比)筛选出可删除的字段,如预测变量,依据我们的挖掘需求,保留的预测变量,并按重要性进行排序。生成过滤节点后,在里面可看到保留了对输出(也就是客户的流失标志)有影响的项,去掉了对输出没什么影响的项。总的挖掘过程和过滤如图1-图2所示。 接着我们在模型里面选择C5.0模型,编辑模型的选项,有四种用于构建C5.0模型的训练方法:1.输出类型:指定希望生成的结果模型是决策树还是规则集,根据CDMA客户的性质和要预测的是流失项,在此选用决策树模型。2.群体字符:如果选中此选项,C5.0将试图组合输出字段中具有相似样式的符号值。3.使用推进:这是C5.0算法的一个特殊方法用于提高其准确率。工作原理是在序列中构建多个模型,第一个模型按常规方式进行构建;构建第二个模型时,将焦点集中于由第一个模型误分类的记录

文档评论(0)

天星 + 关注
官方认证
文档贡献者

人人为我,我为人人。

版权声明书
用户编号:5342242001000034
认证主体四川龙斌文化科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6ADW1H0N

1亿VIP精品文档

相关文档