贷款违约预测数据分析报告.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

贷款违约预测数据分析报告

目录

一、选题背景介绍.3

二、数据预处理.3

三、模型建模.7

四、模型性能分析.9

五、总结10

一、选题背景介绍

本次选题来自阿里云天池大赛——贷款违约预测。该实验以金融风控中的个人信贷为背

景,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。本

次主要解决的是分类问题,预测贷款人是否有违约的可能,以此来判断是否通过此项贷款。

二、数据预处理

本次研究数据量大小:800000条记录,47字段。(由于本次数据量大,直接用该数据作

为训练集以及测试集数据)利用info()查看数据整体情况,结果如下:

1.重复值检查

利用train_data.duplicated().sum()进行重复值检查,结论:无重复数据。

2.缺失值检测

查看缺失情况,如下:

对缺失值进行填充:

对缺失数据为数值型的数据进行中位数填充数据,对缺失数据为字符型数据用众数进行

填充。具体代码如下:

3.异常值检查

利用Z-score方法通过计算数据点与其均值的偏差量的标准差来检测异常值。具体做法

是计算每个数据点的Z-score,如果Z-score超过了某个阈值(通常是3),则将其视为

异常值。利用该方法对数值型数据进行异常值检查并处理,具体如下:

4.数据转换

对部分字符型数据进行数据转换,如字段“employmentLength”,查看原始数据:

对该字段转换成数值型数据,最后得到:

5.数据转换

利用函数get_dummies()对分类数据进行数值化转换,最后得到数据:

对null数据直接剔除,

得到最后数据量大小:(753201,139)

三、模型建模

1.将数据分为训练集与测试集

代码如下:

2.逻辑回归

(1)模型原理

逻辑回归是一种用于分类问题的机器学习算法。尽管名为尽管名为回归回归,但实际上逻辑回归用

于预测离散的类别标签,而不是连续的数值。逻辑回归的原理基于线性回归,并使用了一种

称为称为逻辑函数逻辑函数(或称为(或称为函数函数)的非线性函数来进行分类。逻辑函数将输入值映射

到一个介于0和1之间的输出值,表示某个样本属于某个类别的概率。

需要注意的是,逻辑回归是一种线性模型,它对输入特征的线性关系有一定的假设。如

果数据存在复杂的非线性关系,逻辑回归可能无法很好地拟合数据,此时可以考虑使用其他

更复杂的模型。

(2)训练模型

(3)调参

调参代码如下:

在上述代码中,我们首先定义了逻辑回归模型的超参数候选值param_grid,包括正则化

系数C的候选值。然后,使用GridSearchCV创建网格搜索对象,指定模型、超参数候选值

和交叉验证的折数(这里设为5)。接下来,使用fit方法在训练集上进行网格搜索,找到

最佳的超参数组合。然后,使用best_estimator_属性获取最佳模型。最后,在测试集上进行

预测,并计算准确率。

最后结果输出:

3.随机森林模型

(1)模型原理

随机森林是一种集成学习方法,用于解决分类和回归问题。它由多个决策树组成,

每个决策树都独立地进行训练,并通过投票或平均等方式综合各个树的预测结果来作出

最终的预测。随机森林的原理基于决策树,它在每棵树的训练过程中引入了两个随机性

源:随机选择样本和随机选择特征。在样本方面,随机森林从原始数据集中

文档评论(0)

各类考试卷精编 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档