基于Group MCP Logistic模型个人信用评价分析.docVIP

基于Group MCP Logistic模型个人信用评价分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Group MCP Logistic模型个人信用评价分析

基于Group MCP Logistic模型个人信用评价分析   摘要:在利用Logistic模型分析个人信用评价问题时,需要进行变量选择。Group MCP不仅可以将相关变量以组为单位进行变量选择,还可以对组内变量进行选择。文章根据个人信贷数据,建立了Group MCP Logistic模型,并与Group Lasso、Group Bridge所得的结果进行比较,综合考虑模型复杂度和预测正确率,发现根据Group MCP建立的模型效果是最优的。   关键词:Group MCP;Logistic模型;个人信用评价;变量选择   一、 引言   个人消费信贷在我国迅速发展,对拉动经济增长起到了一定的促进作用。但其中也隐藏着很大的潜在风险,即信贷资产不能及时有效地收回。因此,急需建立完善的个人信用评价体系,从而降低信贷风险。个人信用评价的核心是建立不同客户的信用评价模型,根据信用评价模型对信贷申请人进行评分,从而决定是否给予贷款。   个人信用评价分析中,应用最广泛的方法有统计分析和机器学习两类,前者在模型稳健性和可解释性上有很大的优势。统计分析方法中,学者最关注的是Logistic模型,其计算方法简单、预测准确率高、变量解释能力强。但当Logistic模型涉及的变量很多时,直接使用也存在多重共线性和计算复杂度等问题。因此,变量选择是个人信用评价问题的重点和难点。   传统的变量选择方法有最优子集法和逐步回归法,但这些方法计算量大,且不稳定,当数据有微小变化时,可能得到完全不同的模型,其结果往往是局部最优解,并非全局最优解,尤其当变量个数大于样本量时,方法失效。Lasso是目前应用广泛的变量选择方法,但在个人信用评价问题研究中,许多解释变量是定性变量,对其进行数量化后引入大量的虚拟变量。在利用最优子集、逐步回归或Lasso进行变量选择时,只能选择某个虚拟变量,而不是将相关的虚拟变量作为整体进行选择。Group Lasso将相关虚拟变量作为整体进行选择,使其能够整体剔除或保留在模型中,但并不能实现对群组内变量的选择。Group Bridge既可以实现选择重要的组,也可以选择这些组里面的重要变量,但其惩罚函数在某些点不可微。Group MCP(Group Minimax Concavepenalty)解决了Group Bridge不可微的问题。   本文将建立基于Group MCP的Logistic模型,对个人信用评价的影响因素进行选择和分析,并将其与基于Group Lasso、Group Bridge所得的结果进行比较。   二、 Group MCP Logistic模型   三、 实例分析   1. 数据来源。本文数据选用的是德国某银行的个人信贷数据集合。该数据集中有1 000条记录,包括21个字段,其中前20个字段为信贷申请人的个人特征描述,最后1个字段是银行对客户信用级别的定义:0为“差客户”,1为“好客户”。   本文所用数据包括21个字段,将其进行处理、编码后的结果(解释变量20组共52个,因变量1个)见表1。   原始数据中,信贷期限(x2)、贷款金额(x5)、当前居住地居住时间(x11)、年龄(x13)为连续型数据,为克服量纲的影响,将其标准化处理后再进行分析。   本文所用数据集中,包括700条信用“好客户”和300条信用“差客户”,分别从中随机抽取80%用作训练集,剩余20%用作测试集。训练集中信用“差客户”与“好客户”的数量比为3:7,数据不平衡比较明显,为了降低数据不平衡对分析结果造成的影响。采用Random Oversampling方法在信用差客户中生成120条记录参与建立模型。   2. Group MCP Logistic模型的建立。本文数据分析通过R软件的grpreg程序包完成,得到非零解释变量11组共18个,系数压缩为零的解释变量9组共34个,见表2。   由表2可以看出:现有支票账户(x1组)额度越高的客户,违约的概率越小(x1_1x1_2x1_3);信贷期限(x2)的系数为负,表明期限越长,违约的可能性越大;信贷历史记录(x3)中,只有x3_1、x3_2留在模型中,表明该行关注信贷申请人在本行的贷款是否按时归还,而不太关注申请人在其他银行的信贷记录;贷款目的(x4)中,只有x4_1、x4_2、x4_7留在模型中,表明该银行很看重贷款投资车和教育的申请人;贷款金额(x5)的系数为负,表明贷款额度越高,违约的风险就越大;储蓄账户/债券(x6)额度越大的客户,违约风险越小,且额度超过500DM会给个人信用得分加分,反之则减分;现任工作时间(x7)只有x7_4留在模型中,且系数为正,表明该银行很看重工作时间在4至7年之间的客户,该类客户在信用评价时会得到加分;个人身份和

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档