基于决策树C5.0商业银行客户细分探究.docVIP

基于决策树C5.0商业银行客户细分探究.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树C5.0商业银行客户细分探究

基于决策树C5.0商业银行客户细分探究   [摘 要] 客户细分是商业银行客户关系管理的核心技术之一。本文首先对国内某商业银行客户的性别、年龄、学历、职业、年薪、婚姻状况、健康状况和居住年限8类重要属性进行标准化处理,利用聚类分析方法将客户粗分为4类,进而采用决策树C5.0算法对该银行客户进行细分,得出更为细致的分类规则。最后针对4类客户的特征和属性,设计出差异化的银行客户服务体系方案。 [关键词] 客户细分;决策树;差异化营销 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 05. 019 [中图分类号] F830.33;F830.49 [文献标识码] A [文章编号] 1673 - 0194(2014)05- 0026- 04 0 引 言 在现代的商业银行客户关系管理(Customer Relationship Management, CRM)中,面对海量的客户信息,银行需要对数据库中的原始客户数据进行深层次挖掘、合理分类,才有可能实现高效的管理。据美国META集团的调查发现,数据挖掘技术已经在美国金融业、商贸业等行业得到了广泛的应用。采用数据仓库和数据挖掘技术的企业大幅度提高了投资回报率,部分优秀企业的投资回报率甚至达到每年600%。毋庸置疑,数据挖掘技术优化了CRM系统的服务功能,可以为客户服务提供准确的参考信息,提高客户事务的处理能力。因此,在银行客户管理中,数据挖掘技术得到高度重视。 利用数据挖掘技术对客户进行细分是客户关系管理的重要一环。学者们致力于开发不同的数据挖掘技术进行客户细分研究,如基于KSP混合聚类算法的移动商务中的客户细分、基于模糊聚类集成算法的客户细分等。对商业银行而言,客户的细分可以帮助银行识别优质客户,并针对不同客户执行个性化的营销策略,以实现合理分配资源,更好地进行经营决策。其中,决策树分类技术就是一种有效的对银行客户进行分类的数据挖掘技术。最早,Quinlan等人(1986)提出决策树ID3方法,该算法采用信息增益选择策略的方式进行分类,具有使用简单、样本识别率高等优点,被广泛应用于客户价值分析、反洗钱、客户贷款预测等方面。ID3方法在银行客户分类中的应用在很大程度上提高了客户分类的准确度。此后,一些学者开始尝试对ID3算法进行改进。康健和梁允荣(2003)改进了决策树的ID3算法,提出了数据挖掘结果可视化展现的两层软件结构,并以内蒙某银行为例验证了算法的可行性。邹鹏 等(2011)针对客户错误分类不平衡的问题,对经典的ID3信息增益决策树算法进行改进,把对客户误判的代价纳入考量范围,构建了一个代价敏感的决策树对客户价值进行细分,验证了这个方法在挖掘优质客户时更有效。 综上所述,客户关系管理要求银行与客户之间建立有效的沟通渠道,而决策树分类技术进一步优化沟通的有效性,提高客户关系管理效果,优化管理决策。尽管如此,目前决策树分类技术在银行客户分类应用中仍然存在一些不足之处:一是决策树算法的精度和效率有待于进一步提高;二是在对银行客户细分之后,缺乏针对不同客户营销方案的设计。针对以上不足,本文将继续探索基于决策树的银行客户分类研究,利用精度更高的C5.0决策树分类算法,以银行的真实数据样本为例,对银行客户进行细分,进而针对不同类型的客户提供具体的营销方案。 1 决策树C5.0算法 在经历决策树ID3、C4.5算法之后,C5.0算法采用决策树剪枝技术和Boosting技术,减少了过度拟合问题,有效地提高了算法的效率和精度,并提升了处理大型数据的能力。 C5.0 算法采用最大属性信息增益率来选择属性,下面简要介绍 C5.0 决策树的产生及计算过程。假设集合数据S按属性C划分为m类不同的类数据子集Ci(i=1,2,…,m),每个类数据子集Ci(i=1,2,…,m)的样本数为ni(i=1,2,…,m),pi为类别Ci(i=1,2,…,m)样本数ni(i=1,2,…,m)占总样本数n的比例,即pi=ni /n。S是n个样本数据的集合,样本数据集合的信息熵用下式表示: E(S)=-■pi log2(pi)(1) 假设属性A将样本数据集合S划分成v个子集Sv,每个子集Sv的取值均为av,nij是子集Sj中属于Ci(i=1,2,…,m)类的样本数,p′j是属于属性A的属性值为aj的样本数占总样本数的比例,即p′j=■nij/n,pij是属性A属性值为aj时,类别为Ci(i=1,2,…,m)的概率,即pij=nij/■nij。属性A的条件熵可以用下式表示: E(S|A)=-■p′j■pij log2(pij)(2) 进而可以得到属性A的信息增益Gain(A),信息熵SplitI(

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档