- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对信用卡客户分类数据挖掘
:随着经济的发展,信用卡市场逐步壮大并日益繁荣。近几年逐渐成为我国居民个人消费使用最为频繁的支付工具之一。卡属于一种贷款,这也构成了客户对于开证银行的债务关系,开证行对于用户的信息以及对于其价值评估也成为了重要的一,的结果可以用来分析客户的最大信用额度客户是否能够成功信用卡业务以及还款的时间比例等等合理因此利用先进的数据挖掘技术客户信息进行客户分类,区别不同的客户群体,然后针对不同客户群体,采取不同的发卡方式,营销策略、风险控制举措这些举动都是十分有必要的,也是对信用卡产品获得市场份额有帮助作用的。
意义:
文献综述
采用的方法:算法中的CHAID算法、ID3、神经网络算法、以及聚类算法中的两步算法等
数据来源:某家银行对于信用卡用户申请批准。包括的年龄、工作、婚姻状况、教育程度、是否有违约、收支平衡、是否有房屋、是否有贷款、联系方式、期限、的次数、水平、是否批准予以其下一信用卡的使用权等等
数据预处理:年龄我们只取其十位数、工作按行业类型分别划分为-10、单身已婚和离婚分别为小学中学大学分为房屋、是否有贷款、银行是否批准、是否违约等中”用否”用方式、座机、分别为支取小于支取
分析过程:于我们处理过的数据我做的是特征选择特征选择也叫特征子集选择 ( FSS 。是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。特征选择的我们可以看到这一项并不,所以我们在后剔除第二的default违约行为)因为类别过大的原因我们也将其剔除,对于剩余数据我们以conclusion(银行是否给予客户下一季的信用卡使用权)输出进行决策树分析。我采用了CHAID神经网络、C.50算法结果显示他们分析结果中的正确率基本一致在%。但是神经网络模型所给出的更加可靠因为神经网络算法对于本文所采用的数值相对。逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。说神经算法可以接受的数据类型来说离散型的数据最为适合
CHAID
正确 4,037 89.29% 错误 484 10.71% 总计 4,521 神经网络 4,042 89.40% 错误 479 10.60% 总计 4,521
从训练结果来看,对于我们的银行决策影响最大的是预期的收入水平,然后通讯方式、工作、婚姻状况、教育水平、是否有贷款和房屋等对银行决策都起重要作用但是影响率都非常小。
而收支平衡、和之前还款次数在本模型中影响力微乎其微,在我们之后的客户聚类分析中我们不在考虑收支平衡和还款次数的作用。
在我们对于客户特点进行聚类分析后得出以下结果
从图中我们可以看到两步算法将我们的客户聚为四类,而kmeans算法中将客户分为五类。其中两步算法中的poutcom的区分度比kmeans要好的多,而且我们在上述的决策树分析中我们可以得出poutcome是影响银行决策的主要因素,因此其他的因素可以不明显区分但是poutcome必须要保证其无偏。后文将着重描述两步算法分析所得到的结果。
有图是四类的具体数值,结合上图的比例分析。客户中分类的数量按1、3、4、2逐渐的比例增加。两步算法的具体评判标准在附件中,这里不再赘述。聚类四中我们可以通过联系方式加以区分—只有这个群体中才有大多数人使用座机,聚类一可以通过是否现在就有贷款行为进行区分。聚类三可以通过是否只存在婚姻关系加以区分。聚类二通过poutcome区分。
上图是对于聚类中预计收入聚类类别的统计。我们可以分析出在收入不变的情况下聚类、在增长%的水平下剧减,而且分布于聚类在预计收入增长%的人集中聚类收入增长%的水平下集中在聚类以上分析我们其实已经可以看到对预计收入的人群其他聚类人群来说属于未来潜力大的人群,可以给他们增长水平分提供普通水平的限额
最后,通过合并银行作出结论和聚类结果,对他们再进行分析可得:
聚类-1 聚类-2 聚类-3 聚类-4 0 计数 647 1107 993 1253 预期 610.4844 1213.891 990.0464 1185.578 残差 36.51559 -106.891 2.95355 67.42159 1 计
您可能关注的文档
- 商用空调维修案例辩析.ppt
- 三菱PLC基本指令辩析.ppt
- 师大通过激素的调节辩析.ppt
- 三相电压型PWM整流器的设计与仿真辩析.ppt
- 师德师风警示牌辩析.ppt
- 三菱PLC的基本指令步进指令及编程GOOD辩析.ppt
- 三自由度搬运机械手的设计解决方案.doc
- 丧葬挽联大全解决方案.doc
- 色散补偿技术在通信网中的应用解决方案.doc
- 纱线恒力控制器的产品化解决方案.doc
- 2025AACR十大热门靶点推荐和解读报告52页.docx
- 财务部管理报表.xlsx
- 高中物理新人教版选修3-1课件第二章恒定电流第7节闭合电路欧姆定律.ppt
- 第三单元知识梳理(课件)-三年级语文下册单元复习(部编版).pptx
- 俄罗斯知识点训练课件-七年级地理下学期人教版(2024).pptx
- 课外古诗词诵读龟虽寿-八年级语文上学期课内课件(统编版).pptx
- 高三语文二轮复习课件第七部分实用类文本阅读7.2.1.ppt
- 高考物理人教版一轮复习课件第4章第3讲圆周运动.ppt
- 高考英语一轮复习课件53Lifeinthefuture.ppt
- 2025-2030衣柜行业风险投资发展分析及投资融资策略研究报告.docx
文档评论(0)