用于电信业中无力偿还客户的决策支持的数据挖掘.ppt

下载文档

0
0
约1.28万字
约 44页
2022-05-04 发布于重庆
举报
版权申诉
保障服务

用于电信业中无力偿还客户的决策支持的数据挖掘.ppt

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

对于46个变量的说明： 2个描述帐户信息，4个描述客户对之前电话帐单的行为。余下40个是15个2周内客户的呼叫习惯。这40个特征的选择是基于新缩减数据集的分析。该页描述如下：这个过程结束后得到了一个有2066个case的数据集。创建了一些主要和次要的特征。在数据分析阶段后，简要列出了46个变量（摘自附录），作为候选区分因素。2个描述帐户信息，4个描述客户对于之前电话帐单的行为。余下40个是15个2周内客户的呼叫习惯。这40个特征的选择是基于新缩减数据集的分析。关键时期（critical period）：对每个帐户都有一个充分的研究阶段，成为critical period。在此期间观察客户行为。对那些由于不买单而被销户的，“关键期”定义为服务中断前的最近15个2-week。对于没销户的，“关键期”为未支付帐单而可能的中断日期前的一个类似长度的时期。对每个帐户，每年有6个可能的服务中断期，可以随机选择。对每个帐户，关键期的每个2-week期间，一些变量被定义，通过计算付费了的个体总数、电话使用的总时间、电话呼叫总数，在此期间呼叫的不同号码数。对此图的说明：两种人的平均行为模式有明显不同。平均来讲，sol的变化不大，从460-680。相比而言，insol在前8个2-week间付费单元少，之后行为开始改变，比sol明显多了许多。这个阶段的结论：创建一些新的变量，描述每个电话帐户的使用，并与先前的4个2-week作比。两类客户在关键时期的平均付费单元数第三十页，共四十四页。 6) 选择分类算法本研究使用的算法及结果如下： 1.回归分析，给出了一个线性分类器。 2.神经网络，给出了一个非线性分类器。 3.决策树，给出了一个基于规则的分类器。我们实验中的依赖变量为描述顾客的SOLVENT(置为0)或INSOLVENT(置为1)。第三十一页，共四十四页。 7) 数据挖掘实验的结果为了测试和比较不同分类算法的性能，做了一些实验。实验所用数据集创建的数据集被分为了两部分：第一部分，含有2/3的例子，作为训练集；第二部分，含有1/3的例子，作为测试集。所做实验都采用该划分好的数据集。第三十二页，共四十四页。 8) 逐步回归分析回归分析使用工具：SPSS Version 10.0 第三十三页，共四十四页。决策树在回归分析阶段选出的17个变量作为决策树的输入。如前所述，2/3的数据用于训练以建立一个基于规则的分类器，余下的1/3用于测试生成的决策树。决策树的结点表示特征的测试，叶子表示可能的有力偿还和无力偿还客户。第三十四页，共四十四页。神经网络利用后向传播算法，仍然使用回归分析中选出的17个变量作为训练网络的输入。第三十五页，共四十四页。对三种分类器结果的解释说明从上表可以看出，对于第一个目标，最大化无力偿还客户的分类正确率，决策树的效果最好；对于第二个目标，最小化有力偿还客户的错分率，仍是决策树的效果最好。第三十六页，共四十四页。 9)使用发现的知识在case-by-case的比较中，每个case（一个客户）被分别检验。做法：如果三个分类器意见一致，则该case就被分类，否则，该case被认为无法分类。结果：虽然无力偿还客户的分类准确率下降了不少，但是有力偿还客户的错判警报改进了很多。从下表中可以看出，1866个有力偿还客户中，只有1个被错判的。第三十七页，共四十四页。在结果评估的最后一步，对被正确预测为无力偿还的客户所实际占有的帐目作了评估。第三十八页，共四十四页。第四部分总结及未来研究方向第三十九页，共四十四页。本文主旨该长期研究项目目的是研究数据挖掘技术对于客户无力偿还问题在电信领域的特殊应用。然而，项目的发现远不止在该案例的研究领域的应用。出于一些原因考虑，该研究的成果是有重大意义的。 1. 该研究所用的数据，需求和目标的设置，以及实验的规模，都是来自真实世界的问题。 2.实验规模相当的大，MB级的数据量。 3.构建了一个“知识发现数据项目” 并从始至终完整的执行。 4.在初始阶段，需要多种工具和专家的直觉来定义数据集特征，选择合适的变量描述需求模型特征。第四十页，共四十四页。数据挖掘过程总结数据挖掘是个多步的过程。使用多种算法，最后选择最好最合适该数据集的算法。 1. 实施特征选择（用回归分析中的逐步前向选择）。在这个阶段，46个变量被减至17个。 2. 选出的特征被用于构造基于决策树和后向传播的神经网络算法的分类器（大致上三种算法性能相差不大）。 3.该研究中联合算法的实施增加了分类预测的可信度，明显降低了正例的错分率，