- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
树形算法在电信客户细分中应用研究
树形算法在电信客户细分中应用研究
摘 要: 树形算法由于其对大量高维数据的有效处理、对噪声点的高容忍度和对知识的有效表示,是最常用的CRM客户细分技术。通过对几类树形算法,包括决策树C4.5算法、决策树CART算法和平衡随机森林BRF算法,在解决电信客户细分问题中的表现进行分析研究,并且选用BP神经网络算法作为树形算法的参照,最终研究得出:平衡随机森林在处理电信客户问题上具有最好的表现。
关键词: 决策树; 随机森林; BP神经网络; 数据预处理
中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2014)05-01-03
Abstract: Due to the effective processing of large amounts of high-dimensional data, high tolerance for noise and effective representation of knowledge, tree algorithm is the most common CRM customer segmentation technique. The performance of tree algorithm, including the C4.5, the CART and the balanced random forest, in solving telecommunication customer segmentation problems is analyzed. BP neural network algorithm is compared. Experiments have shown that balanced random forest has the best performance in dealing with the problem.
Key words: decision tree; random forest; BP neural network; data pre-process
0 引言
在当前我国电信市场激烈的竞争环境中,客户成了电信企业争夺的资源,客户关系管理(Customer Relationship Management,简称CRM)由于其能够帮助企业更好地了解客户并增加盈利,在电信企业中广泛应用。客户细分作为CRM的核心问题日益受到人们的关注。客户细分是指将市场分为具有不同需求、特征或行为的不同购买者的过程。客户细分的主要目的[1]是:①预测客户行为,为企业和客户之间交流提供了基础,使得企业客户为客户提供更好的服务、防止客户流失;②通过对客户合理的类别划分,分析出当前以及预期客户群的区段,判断不同区段的突出特点,准确认识客户的总体构成,对客户的服务和营销更具针对性。
树形算法是最常用的CRM客户细分技术,研究分析各树形算法在对电信客户数据进行细分挖掘时的不同表现,找到客户数据细分效果相对最好的算法,对于提高CRM客户细分技术有推动意义。
1.3 平衡随机森林BRF算法
平衡随机森林是在随机森林的倾斜数据处理问题上,Chen (2004)[7]提出的一种改进算法。BRF是在随机采样输入数据时,使多数类和少数类的数据量相当,在处理大型数据时较为有效。
1.4 BP神经网络
BP神经网络[8]的拓扑结构(见图1)由一个输入层、一个输出层、一个或多个隐藏层组成,单元之间由权重w相连接,每个单元有一个相关的偏倚。网络的训练过程为数据从输入层通过隐藏层到输出层前向传播,在输出层进行评估后将错误反馈回输入层,在此过程中调节网络节点连接权重和偏倚,使得网络的误差平方和最小。最终训练完成的神经网络模型用作树形模型的对照组。
2.2.1 决策树
⑴ Gini指标计算优化
在决策树[9]CART的生成中,Gini指标因为需考虑所有子集划分,所以其计算量随着特征值集的增加呈指数量上升。显然,缩小值集空间能显著降低运算复杂度,但当特征的值个数较少时(如10),去除前1/3会影响到最优子集的选择,但随着值个数的增加,这种影响会越来越不明显。另外,当每个值出现的次数相对平均时,缩小值集空间会明显影响到最优子集的选择,而当次数差异较大时,去除出现次数非常小的值几乎不会影响到最优子集。因此,为优化Gini指标的计算,对值集空间进行缩减,方法:对于值个数小于10的特征,仅去除分布小于1%的值;而对值个数大于10的特征,去除值分布排名前1/3或其分布小于1%的值。
⑵ 树剪枝
由于前期的数据处理已经对数据中存在的噪声进行了平滑,所以不再采用决策树剪枝。
2.2.2 平衡随机
原创力文档


文档评论(0)