评分卡模型.docxVIP

下载本文档

119
1
约7.51千字
约 10页
2018-04-11 发布于湖北
举报
版权申诉

评分卡模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

评分卡模型

评分卡模型0 引言信用评分模型是消费信贷管理中的先进的技术手段，是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域，在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。信用评分模型运用先进的数据挖掘技术和统计分析方法，通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析，挖掘数据中蕴含的行为模式、信用特征，捕捉历史信息和未来信用表现之间的关系，发展出预测性的模型，以一个信用评分来总和评估消费者未来的某种信用表现。信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。1 基于Logistic回归分析的客户信用评价卡模型本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。首先，建立信用评价模型，给出客户信用评分卡模型，并对客户样本进行初步分类预测。下面的理论基础和变量选择都以该小额贷款公司为例。1.1 建模的准备1.1.1 目标变量的定义研究的目标变量为客户是否具有“违约”行为，本文是以客户逾期未归还贷款定义为“违约”行为（即“坏”客户）。1.1.2 定量指标的筛选方法第一种定量指标的筛选方法：用随机森林法寻找自变量中对违约状态影响最显著的指标。第二种定量指标的筛选方法：计算变量间的相对重要性，并通过相对重要性的排序，获取自变量中对违约状态影响最显著的指标。第三种定量指标的筛选方法：通过自变量间的广义交叉验证法，获取自变量中对违约状态影响最显著的指标。第四种定量指标的筛选方法：通过自变量的逐步回归法，获取自变量中对违约状态影响最显著的指标。第五种定量指标的筛选方法：采用“Boruta”法，获取自变量中对违约状态影响最显著的指标。1.1.3 定性指标的筛选方法定性指标的筛选是通过IV值选出适用于建模的指标。IV的全称是Information?Value，中文意思是信息价值，或者信息量。挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。“变量的预测能力”这个说法很笼统，很主观，非量化，在筛选变量的时候我们总不能说：“我觉得这个变量预测能力很强，所以他要进入模型”吧？我们需要一些具体的量化指标来衡量每自变量的预测能力，并根据这些量化指标的大小，来确定哪些变量进入模型。IV就是这样一种指标，他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情：我们假设在一个分类问题中，目标变量的类别有两类：Y1，Y2。对于一个待预测的个体A，要判断A属于Y1还是Y2，我们是需要一定的信息的，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的自变量C1，C2，C3，……，Cn中，那么，对于其中的一个变量Ci来说，其蕴含的信息越多，那么它对于判断A属于Y1还是Y2的贡献就越大，Ci的信息价值就越大，Ci的IV就越大，它就越应该进入到入模变量列表中。前面我们从感性角度和逻辑层面对IV进行了解释和描述，那么回到数学层面，对于一个待评估变量，他的IV值究竟如何计算呢？为了介绍IV的计算方法，我们首先需要认识和理解另一个概念——WOE，因为IV的计算是以WOE为基础的。这里以年龄（age）为例来帮组了解WOE和IV值的说明和计算公式。表 1 按“年龄”各属性的“好”、“坏”统计Age#bad#goodWOE0-1050200=ln((50/100)/(200/1000))=ln((50/200)/(100/1000))10-1820200=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))18-355200=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))35-5015200=ln((15/100)/(200/1000))=ln((15/200)/(100/1000))50以上10200=ln((10/100)/(200/1000))=ln((10/200)/(100/1000))