- 150
- 0
- 约3.15万字
- 约 28页
- 2017-12-22 发布于江苏
- 举报
个人信用风险评估方法的研究--基于lendingclub数
个人信用风险评估方法的研究
--基于 lending club数据
四川大学 刘晶、谭峰、柴容倩
摘 要
信用风险的评价方法不断推陈出新,管理技术正日臻完善,许多定量技 、
支持工具和软件已付诸商业应用。由于我国商业银行和金融市场尚处转轨和新兴
发展阶段,缺乏对个人信用风险评估的基础理论的深究,个人征信系统的发展十
分滞后和缓慢,严重阻碍了中国社会经济的健康持续发展。因此,个人信用风险
的评估方法的探讨成为了热点话题。
鉴此, 本文以lending club公司2014年1月1 日到2015年3月31 日的
借款人数据为源数据,首先根据spearman秩相关性检验和主成分分析法从众多
变量中筛选出解释能力比较强的变量,然后依据筛选出的变量建立随机森林模
型、判别分析模型和logistic回归模型,通过这三类模型判断准确性的比较,
力图构建更为有效的个人信用风险评估方法,从而为该平台及出借人决策提供科
学依据。
实证结论如下:
第一,主成分筛选变量后可以减少模型变量个数起到降维的作用,但是在对
随机森林模型来说,由于其并非线性模型,而且筛选变量造成了信息的损失,经
过线性组合的特征并不一定能给模型带来更好的效果。
第二,通过训练集 10000个数据样本测试出三个模型的预测能力。其中,随
机森林模型和logistic模型的预测准确度比较高,分别为:81.87%和70.89%。
而判别分析的结果相对较低为:65.92%。
第三,通过测试集2325个样本检验三个模型的预测能力。总体来看随机森
林模型和logistic模型对测试集的预测准确度相近,远远高于判别分析的结果。
最后,通过预测的结果,和对模型分析之后得出三个模型的预测准确率分别
为:随机森林模型的判断准确率最高,而判别分析模型的准确率最低。 即:随
机森林的准确率logistic模型的准确率判别分析模型的准确率。其中,随机
森林模型判别的准确率又和其特征的选取有一定的关系。
综上所述,本文在建立P2P信贷风险评价模型相比较中认为,随机森林模型
会更加准确和可靠。
关键词:信用风险 随机森林 判别分析 logistic回归
目 录
一.问题的提出及研究概述1
(一)问题的提出1
(二)国外研究概述1
1.国外机构对个人信用评估的方法研究1
2. 国内典型个人信用风险评估方法3
二. 数据预处理4
(一)基础数据的情况4
(二)研究方法选择4
(三)定义变量4
(四)样本处理6
1.随机抽取样本。6
2. 补充空白值和缺失值。6
三.数据的探索性分析6
(一)变量基本情况分析6
(二)描述性统计分析7
四.解释变量筛选9
(一)spearman相关性分析9
1. 解释变量与被解释变量的相关性9
2. 解释变量之间的相关性10
3. 多重共线性分析11
(二)主成分法筛选变量11
1. 主成分分析的基本思想11
2. 主成分筛选变量过程12
五.个人信用风险评估方法的建模13
(一)各类模型建模13
1.随机森林模型13
2.判别分析法18
3. Logistic 回归19
(二)总结与预测23
1.变量的筛选对模型的影响23
2.各模型的比较23
3.各模型的预测24
参考文献25
一.问题的提出及研究概述
(一)问题的提出
在市
原创力文档

文档评论(0)