- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在提升电信业欠费控制能力上的应用数据挖掘技术在提升电信业欠费控制能力上的应用
数据挖掘技术在提升电信业欠费预测及控制能力上的应用
摘要:数据挖掘是目前发展迅速、应用广泛的一种从海量数据中抽取出潜在的、有价值的知识的过程。基于数据挖掘技术海量数据提取和知识发现的特点,本文主要基于数据挖掘技术在提升电信业欠费控制能力上进行分析与研究。基于电信客户是理性的和经济的这一基本前提,可以采用决策树,神经网络,关联规则分析等数据挖掘算法和统计分析技术,通过对电信客户的历史业务行为进行深入分析,从而预测其在未来时间的欠费倾向。
关键字:数据挖掘 欠费 预测
引言
欠费问题是困扰通信行业的主要难题之一,长期居高不下的欠费用户量不仅关系到运营商的切身利益,更影响消费行业的平衡运作,欠费金额的激增不仅是对运营商切身利益的损害,更造成国有资产的流失,使国家蒙受损失因此,追讨欠费是当前问题。做好电信欠费的防范工作遏制欠费是一项紧迫的任务。1.1 设计思想
研究过程主要以客户的历史业务行为为依据,预测其在未来时间的欠费倾向。在模型建设完毕后,只要输入该客户的相关数据变量即可根据模型输出结果判断其在未来时间的欠费概率,从而采取相关控制行为。如下图所示:
图一 欠费用户预测模型效果图
1.2 算法原理
基于上述设计思想,在具体应用过程中主要用到的数据挖掘算法有神经网络算法和决策树算法。
神经网络算法的实施过程是由输入变量至输出变量的一个数据清洗沉淀过程。输入层结构由输入变量(属性)来定。每个属性为一个输入结点。输出层结构由输出结果来定。有几个输出值,就有几个输出结点。隐藏层 层数和结点数点的确定:主要靠经验。初始权值的确定:取决于对问题的了解和先验知识,哪部分作用强,权值就设得大些。训练过程:一个神经元连接权重调整的过程。前向传播阶段:输入层-隐层-输出层,反向传播阶段:计算输出的结果和目标结果的差距 经输出层-隐层-输入层 ,反推神经元连接的权重调整,对每个输入样本重复上述步骤,直到网络收敛为止。
决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。2.1 变量选取
选取某月某地区欠费用户的业务行为数据作为研究样本,采用神经网络算法思想挖掘欠费用户的业务行为特征。可建立以下变量:
通话消费进度
总消费进度
最大/小缴费金额
用户剩余免费时长
呼叫主要集中的时段
短信主要集中的时段
查询话费次数
在网时长
通话消费频率
总消费频率
验证变量选取的代表性。如:我们对某一欠费用户在一个月中的通话行为进行日分析,可看出该用户的通话消费进度,如下图所示:
图二 欠费用户——通话消费进度图
可见该用户属于月末突击消费的类型,该类型用户欠费可能性极大。
下图为所选样本中某个用户的消费进度图,可见该用户属于消费较少的用户,且月末也有突击消费现象存在。
图三 消费进度图
2.2 利用神经网络算法挖掘欠费用户特征
将已准备好的变量集由输入层输入,经由隐含层对数据作出处理后,传到输出层。如果输出层输出的信号与期望的输出不符,则反向传播。误差的反向传播是将实际输出与期望输出之间的误差以某种形式通过隐含层再向输入层反传,并且在反传的过程中,将误差分摊给各层的所有单元,用来获得各层单元的误差信号,用这个误差信号去修正各单元的连接权,然后再进行信号的正向传递,这种信号正向传递和误差的反向传播的过程是周而复始地进行,连接权值也相应不断地进行调整,这个过程就是网络学习训练的过程,直到网络输出的误差足够小或者达到了我们的预设值,或者进行到预设的学习次数,网络的学习训练才结束。
对输出层得到的数据结果进行分析,该结果集即为欠费用户的特征集。
2.3 利用决策树分类算法进行用户预测
根据神经元输出结果中的欠费用户特征,对随机抽取的单用户业务行为数据进行分析,待分析的数据的范围大于或者等于上述特征集。
根据决策树分类算法思想,分析该用户的业务行为数据是否满足上述特征集,如果满足即将其归为准欠费用户,业务人员需要采取相关营销策略争取这部分用户,尽量避免其欠费行为在当月月结时产生。反
您可能关注的文档
最近下载
- 内部调动审批表(模板) .pdf VIP
- 《职工非因工伤残或因病丧失劳动能力程度鉴定标准(试行)》.doc VIP
- 民宿项目建设可行性研究报告.docx VIP
- IEC 61133-2006 车辆组装和运行前的整车试验规范(中文).docx VIP
- 部编人教版七年级历史上册第19课《北魏政治和北方民族大交融》说课课件(共24张).ppt VIP
- 2025年儿童青少年近视防控白皮书.pdf VIP
- 2024年执业助理医师(临床)考试备考重点题库(600题版).doc VIP
- 2023年口腔助理医师考试备考重点题库(600题版).docx VIP
- 临床研究答辩.pptx VIP
- 西门子S7-200 SMART PLC应用技术图解项目教程全册教案.docx VIP
文档评论(0)