数据挖掘技术在提升电信业欠费控制能力上应用.docVIP

下载本文档

1
0
约3.17千字
约 6页
2018-06-09 发布于湖北
举报
版权申诉

数据挖掘技术在提升电信业欠费控制能力上应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在提升电信业欠费预测及控制能力上的应用摘要：数据挖掘是目前发展迅速、应用广泛的一种从海量数据中抽取出潜在的、有价值的知识的过程。基于数据挖掘技术海量数据提取和知识发现的特点，本文主要基于数据挖掘技术在提升电信业欠费控制能力上进行分析与研究。基于电信客户是理性的和经济的这一基本前提，可以采用决策树，神经网络，关联规则分析等数据挖掘算法和统计分析技术，通过对电信客户的历史业务行为进行深入分析，从而预测其在未来时间的欠费倾向。关键字：数据挖掘欠费预测引言欠费问题是困扰通信行业的主要难题之一，长期居高不下的欠费用户量不仅关系到运营商的切身利益，更影响消费行业的平衡运作，欠费金额的激增不仅是对运营商切身利益的损害，更造成了国有资产的潜在流失，使国家蒙受损失。因此，追讨欠费是当前通信行业亟待解决的问题。虽然，现有电信业务经营分析过程中，根据业务人员在工作中积累的经验，已对部分欠费数据作出分析，如：欠费金额、欠费用户数、当月欠费用户数、逾期欠费用户数等。但是，针对已发生欠费行为的用户做出分析，分析范围有限，不能达到控制欠费及预测欠费的目的，最终结果还是不停的追讨欠费。所以，做好电信欠费的防范工作，及早遏制欠费的发生才是当前一项紧迫且意义重大的任务，只有及时有效的预测欠费用户，才能有针对性的采取精准化营销措施，挽回这部分用户，进而控制欠费的发生，提升电信业自身对欠费用户的控制能力。本文主要以欠费用户预测为研究主题，以提升欠费控制能力为目标，以神经网络算法和决策树分类算法作为理论支撑，展开深入研究。基本原理 1.1 设计思想研究过程主要以客户的历史业务行为为依据，预测其在未来时间的欠费倾向。在模型建设完毕后，只要输入该客户的相关数据变量即可根据模型输出结果判断其在未来时间的欠费概率，从而采取相关控制行为。如下图所示：图一欠费用户预测模型效果图 1.2 算法原理基于上述设计思想，在具体应用过程中主要用到的数据挖掘算法有神经网络算法和决策树算法。神经网络算法的实施过程是由输入变量至输出变量的一个数据清洗沉淀过程。输入层结构由输入变量（属性）来定。每个属性为一个输入结点。输出层结构由输出结果来定。有几个输出值，就有几个输出结点。隐藏层层数和结点数点的确定：主要靠经验。初始权值的确定：取决于对问题的了解和先验知识，哪部分作用强，权值就设得大些。训练过程：一个神经元连接权重调整的过程。前向传播阶段：输入层－隐层－输出层，反向传播阶段：计算输出的结果和目标结果的差距经输出层－隐层－输入层，反推神经元连接的权重调整，对每个输入样本重复上述步骤，直到网络收敛为止。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法构造决策树来发现数据中蕴涵的分类规则．如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步，决策树的生成：由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。第二步，决策树的剪技：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数扼集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。模型设计 2.1 变量选取选取某月某地区欠费用户的业务行为数据作为研究样本，采用神经网络算法思想挖掘欠费用户的业务行为特征。可建立以下变量：通话消费进度总消费进度最大/小缴费金额用户剩余免费时长呼叫主要集中的时段短信主要集中的时段查询话费次数在网时长通话消费频率总消费频率验证变量选取的代表性。如：我们对某一欠费用户在一个月中的通话行为进行日分析，可看出该用户的通话消费进度，如下图所示：图二欠费用户——通话消费进度图可见该用户属于月末突击消费的类型，该类型用户欠费可能性极大。下图为所选样本中某个用户的消费进度图，可见该用户属于消费较少的用户，且月末也有突击消费现象存在。图三消费进度图 2.2 利用神经网络算法挖掘欠费用户特征将已准备好的变量集由输入层输入，经由隐含层对数据作出处理后，传到输出层。如果输出层输出的信号与期望的输出不符，则反向传播。误差的反向传播是将实际输出与期望输出之间的误差以某种形式通过隐含层再向输入层反传，并且在反传的过程中，将误差分摊给各层的所有单元，用来获得各层单元的误差信号，用这个误差信号去修正各单元的连接权，然后再进行信号的正向传递，这种信号正向传递和误差的反向传播的过程是周而复始地进行，连