数据挖掘论文2解析.docVIP

下载本文档

3
0
约8.86千字
约 7页
2016-05-02 发布于湖北
举报
版权申诉

数据挖掘论文2解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据挖掘的客户流失问题一、数据挖掘数据挖掘又称数据库中的知识发现,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分数据的准备、模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性的, 要取得好的结果就要不断重复这些步骤。在客户流失分析系统中, 数据挖掘只是一小部分, 却是关键的一个部分, 系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来, 应用于数据库中的数据进行流失客户的预测、分析, 对确认有流失倾向的客户根据不同的情况进行预苦处理, 包括套餐资费调整、服务方式更改、竞争对手调查等, 同时将预誓客户名单通过公司的数据交换平台下发给各个业务分区, 进行摸底跟踪, 实施关怀工程。整个系统的业务流程如图所示, 其中流失客户的预测和分析是两个关键的环节, 需要选择讨, 实用案例,计算机系统应用年第期合适的数据挖掘算法, 获取有用的模型和知识应用于系统中, 才能进行科学的辅助决策。二、数据挖掘在系统中的应用流失又分为被动流失和主动流失, 被动流失是因为客户欠费或不履行责任而被移动停机。主动流失有不同的原因, 一类是客观原因限制所引起的异动, 如搬迁等, 另一类是客户主动放弃, 如因为竞争对手的优惠政策, 对目前的服务不满意等。在这些群体中, 那些主动流失的客户是我们要分析的对象, 在这类群体中, 用户价值和信用度高的可能流失客户是我们最关心的对象, 如果能够成功预测出这类将要流失的客户, 并且能够成功的挽留这类大客户, 将给移动公司带来可观的利润。三、基于数据挖掘的电信客户流失分析步骤 1、商业理解商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本文的目标确定为:针对目前在网客户进行流失概率的预测。电信领域的客户流失有3 方面的含义[3 ] : 一是指客户从本电信运营商转往到其他的电信运营商; 二是指客户使用的手机品牌发生改变, 从本电信运营商的高价值品牌转向低价值品牌; 三是指客户月平均消费量降低, 从高价值客户成为低价值客户。在以上3 类客户流失中,第一类是客户流失分析的重点,本文将第一类作为分析的对象。而在第一类客户中,又可具体将其分为被动停机3 个月、主动退网和注销用户。 2、数据理解数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。 (1) 收集原始数据当进行数据挖掘时,首先要从企业数据仓库中取出一个与要搜索问题相关的数据子集。该问题的数据来源是某电信公司某年度1 月～7 月在某地区的数据。 (2) 数据描述 (3) 数据探索分析在使用收集到的原始数据之前,必须要保证所有数据在数量和质量上符合要求。在数据探索阶段,对获取的各变量进行分析探索,选择对目标变量的影响相对较大的关键变量。此处,通过可视化的方式来展现,即利用Clementine 中的分布图节点展示用户流失状态在每个变量上的分布图。从各分布图得出,用户的自然属性,例如性别、年龄等信息缺失值比较多,且存在较多的非法数据,所以在本文的分析中,不选该类变量,该类变量不参与建模。另外,像通话次数、通话时长等变量和客户流失概率之间存在着反比关系,即该类变量的值越大,则客户流失的概率相对来说就越小,所以在接下来的分析中,应该将该类变量或与该类变量相关的导出值作为分析的重点。通过上面对样本数据变量的数据探索工作,对各变量属性有了基本的了解,可以有针对性地选择适用变量或对一些变量进行过滤。 3. 数据准备数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理。在本次客户流失分析过程中,对数据的处理过程包括以下几个方面: (1) 整合数据首先将流失客户的行为信息进行整合。为了便于后续建模,将行为信息按月份进行拆分与合并,并通过计算均值和比率来表示流失用户在流失前的消费行为突变情况。具体计算方法如下:FEE A V G = ( FEE 1 + FEE 2) / 2FEE ADD RA T E = ( FEE 3 +FEE A V G) / FEE A V G其中FEE 1 表示流失用户1 月份的消费额;FEE 2 表示流失用户2 月份的消费额; FEE 3 表示流失用户3 月份的消费额; FEE A V G表示流失用户在前2 个月的消费额平均; FEE ADDRA T E 表示3 月的消费额占其前2 个月消费额平均值的比率,该指标反映了用户在离网前的消费行为突变情况。其次将现有在网客户的行为信息进行整合。整合方法同上。最后,将用户自然属性和行为属性进行整合。整合时将流失用户信息和在