- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XX电信经营分析与决策支持系统二期
数据挖掘分析
前言
小灵通用户是XX电信企业利润的主要来源之一,也是市场竞争的焦点。在目前的市场形势下,发展新客户的成本远远大于留住已有客户的成本。因此加强对小灵通用户的营销和服务工作,减少小灵通用户的流失,是XX电信的重要任务。目前在XX电信经营分析与决策支持系统中,存在对离网小灵通数据的事后分析,但是这样的分析无法做到提前预警,挽留用户。利用数据挖掘技术则可以发现离网小灵通用户的潜在模式,提前进行预测,从而变被动服务为主动服务。CRISP—DM(cross-industry standard process for data mining)是一个跨行业的、以用户为中心,交互式的数据挖掘标准流程,是目前数据挖掘领域内较成熟的方法论。它将数据挖掘过程分为商业理解、数据理解、数据准备、建立模型、模型评估和结果部署等6个阶段。本挖掘分析遵循数据挖掘标准流程,讨论小灵通用户流失预测模型建立的方法和过程,并对预测结果进行分析,以帮助业务人员及时、准确地做出针对性营销服务。
后付费小灵通用户离网预测
理解
商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本挖掘分析的目标确定为:针对目前在网的后付费小灵通数据进行离网概率的预测。该目标涉及后付费小灵通用户和离网两个概念。其中,后付费小灵通在业务系统中已有标识;离网的用户定义为主动及被动拆机用户。
2.2数据理解
数据理解的任务是对原始数据进行收集和熟悉,检查数据质量,对数据进行初步探索,并发现可能存在的、有分析价值的数据特征,以形成对隐藏信息的假设。
研究对象选取
以全省2007年1月离网的后付费小灵通用户为研究对象,同时选取同期在网的后付费小灵通用户作为对照研究对象。确定离网时间点为2007年1月,因此对后付费小灵通用户从2006年7月至12月共6个月的相关变量进行研究。
离网用户的选取:选取2006年7月前入网,2007年1月内拆机的用户,共选出满足条件的用户31862名。在网客户的选取:2006年7月前入网,2007年1月31日状态为正常的后付费小灵通用户共1805006名。同时,为避免一些偏差数据的影响,在用户的选择中屏蔽了公免后付费小灵通用户。
变量选取
基本假设:后付费小灵通用户的行为在年度上不存在强的季节性,即后付费小灵通用户的行为特征和离网影响变量不会因为处于一年中的不同月份(季度)而发生较大变化。
根据对业务的理解,选定以下3方面的变量进行数据理解:
后付费小灵通用户产品订购数据:主要反映用户与服务商关系的数据,如产品类型、在网时长、订购增值业务信息、是否加入套餐等。
用户消费行为特征数据:主要通过用户每月帐务数据反映,且这类数据可以从平均水平和变动情况2个方面来反映。本挖掘分析采用离网时间前6个月,用户的帐务数据变化情况来反映用户消费行为的变动。主要数据包括:用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费,以及用户平均月租费占总费用的比例、6个月总收入波动率((最大收入-最小收入)/平均收入)等
用户其他行为特征数据:如欠费时长、累计欠费金额等。
数据准备
数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理。
首先按照选取的数据范围和变量生成数据,如下图结构:
在Clementine中对数据进行实例化分析,数据结果如下所示
后付费小灵通用户产品订购数据:主要反映用户与服务商关系的数据,如产品类型、在网时长、订购增值业务信息、是否加入套餐等。此部分数据来自于97系统用户资料,经检测,除入网时长外,这些数据准确度较高,无缺失值和偏差值。从上图可看出,入网时长取值范围为6个月到24071个月,很明显,存在错误数据。故将超过入网时长在180个月(15年)以上的用户(共3314个),定义为入网时长180个月。因总数据量大,此操作直接在数据库中进行。
用户消费行为特征数据:主要包括:用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费,以及用户平均月租费占总费用的比例、6个月总收入波动率((最大收入-最小收入)/平均收入)等。经数据质量核查,发现有部分用户6个月收入都为0。这些数据(共88322条记录)中,绝大部分是由于97、计费系统资料不统一造成,少量是由于用户长期欠费,造成停机,不产生费用。这些数据由于特征值相同,对模型会造成偏差影响,故直接删除这些数据。
用户其他行为特征数据:如欠费时长、累计欠费金额等,经核查,数据较准确,不进行任何处理。
进行上述处理后,数据质量报告如下:
建立模型
在建立模型过程中,将根据实际模型的效果对变量做进一步的筛选和处理,既保证模型准确率,又尽量减少最终模型输入的变量,便于业务解释。离网预测模型的准确率,在技术上主要
文档评论(0)