- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法在宽带客户流失研究中应用探究
决策树算法在宽带客户流失研究中应用探究摘要: 数据挖掘的核心作用是从大量的数据中挖掘出未知的、有价值的规律和模式。通过研究数据挖掘技术,运用决策树算法,对目前现实生活中的宽带流失问题进行有意义的探索,主要是对已流失宽带客户过去一段时间的上网行为、上网偏好、套餐协议等信息进行分析,提炼出宽带流失客户的行为特征,利用这些特征预测在网客户的流失倾向。
Abstract: Core role of data mining is to mine out the unknown and valuable rule and model from a large number of data. Through studying data mining technology, using decision trees algorithm, the paper explores the current loss of broadband customer in real life, mainly analyzes the internet access, internet preference, and package agreement of losing customer, extracts from loss of broadband customer behavior, using these features to predict net customer losses.
关键词: 数据挖掘;决策树;ID3算法;宽带流失
Key words: data mining;decision tree;ID3 algorithm;loss of broadband
中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2013)06-0178-02
0 引言
随着网络的普及,目前用宽带上网的用户越来越多,宽带用户的持久使用是电信企业竞相追求的目标,这就要求国内电信运营企业必须向国外先进的运营企业学习,以适应复杂的国际竞争环境,因此电信企业在决策管理、服务质量、服务方式、服务内容、服务意识等方面必须加大投入[1],以全新的经营模式和服务体系为客户服务,要做到以客户为本,以客户的价值取向和消费心理作为企业经营的导向。
数据挖掘技术在中国电信行业中的成功应用,既是电信业主动适应国内外激烈的市场竞争而作出的明智选择,同时也是该行业利用自身所拥有庞大的丰富的数据资源优势所采取的顺势之举。利用数据挖掘技术探索和发现宽带使用过程中的具体问题,对电信企业争夺客户资源,确定决策方案、制定营销策略,扩展业务领域,扩大市场份额等方面起到了极其重要的作用。
1 数据挖掘中的决策树算法
1.1 决策树的概念 决策树实际上就是一个树形的结构,包括:根、子树、节点和叶子,内部节点上选用一个属性进行分裂(决策节点)每个分叉都是分裂的一部分,叶子节点表示一个分布,从树到叶子的一条路径代表一条分类规则,节点的子节点个数跟算法相关。
1.2 ID3算法介绍 ID3算法是Quinlan在1986年提出的一种著名的决策树生成算法[2],它的基本思想是采用信息论中的信息增益作为决策属性分类判别能的度量,进行决策节点的选择,决策树中每个非叶结点都对应着一个非类别属性,树枝代表这个属性的值,一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值,每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联,在ID3算法中,采用信息增益来选择能够更好地将样本进行分类的属性[3]。
(1)信息熵的计算
I(S1,S2,…,Si)=-■p■log p■
其中,|S|表示例子集的总数,其中P■是任意样本属性的概率。类别P■出现的概率为:
Pi=Si/S
(2)条件熵的计算
E(A)=-■■IS■,S■,…,S■
其中,IS■,S■,…,S■=■p■log p■
(3)信息增益的计算
Gain(A)= I(S1,S2,…,Si)-E(A)
2 决策树算法在宽带流失问题中的应用
2.1 功能介绍
(1)应用背景。电信**地市宽带用户,x月份所有用户数(包括离网)有xx,离网用户数xx。离网用户数中,主动离网数xx,被动离网数xx。离网率(离网数/全量数)为xx%,主动离网率为xx%。
(2)问题定义。利用数据挖掘的决策树分析方法,对已流失宽带客户过去一段时间的上网行为、上网偏好、套餐协议等信息进行分析,提炼出宽带流失客户的行为特征,利用这些特征预测在网客户的流失倾向。
2.2 功能实现及相应的图形介面
(1)分析目标(业务目标及驱动力
文档评论(0)