贷款违约预测数据分析报告.pdf

下载文档

0
0
约2.62千字
约 10页
2024-07-01 发布于河南
举报
版权申诉
保障服务

贷款违约预测数据分析报告.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

贷款违约预测数据分析报告

一、选题背景介绍.3

二、数据预处理.3

三、模型建模.7

四、模型性能分析.9

五、总结10

一、选题背景介绍

本次选题来自阿里云天池大赛——贷款违约预测。该实验以金融风控中的个人信贷为背

景，根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款。本

次主要解决的是分类问题，预测贷款人是否有违约的可能，以此来判断是否通过此项贷款。

二、数据预处理

本次研究数据量大小：800000条记录,47字段。（由于本次数据量大，直接用该数据作

为训练集以及测试集数据）利用info()查看数据整体情况，结果如下：

1．重复值检查

利用train_data.duplicated().sum()进行重复值检查，结论：无重复数据。

2．缺失值检测

查看缺失情况，如下：

对缺失值进行填充：

对缺失数据为数值型的数据进行中位数填充数据，对缺失数据为字符型数据用众数进行

填充。具体代码如下：

3．异常值检查

利用Z-score方法通过计算数据点与其均值的偏差量的标准差来检测异常值。具体做法

是计算每个数据点的Z-score，如果Z-score超过了某个阈值（通常是3），则将其视为

异常值。利用该方法对数值型数据进行异常值检查并处理，具体如下：

4．数据转换

对部分字符型数据进行数据转换，如字段“employmentLength”，查看原始数据：

对该字段转换成数值型数据，最后得到：

5．数据转换

利用函数get_dummies()对分类数据进行数值化转换，最后得到数据：

对null数据直接剔除，

得到最后数据量大小：（753201,139）

三、模型建模

1．将数据分为训练集与测试集

代码如下：

2．逻辑回归

(1)模型原理

逻辑回归是一种用于分类问题的机器学习算法。尽管名为尽管名为回归回归，但实际上逻辑回归用

于预测离散的类别标签，而不是连续的数值。逻辑回归的原理基于线性回归，并使用了一种

称为称为逻辑函数逻辑函数（或称为（或称为函数函数）的非线性函数来进行分类。逻辑函数将输入值映射

到一个介于0和1之间的输出值，表示某个样本属于某个类别的概率。

需要注意的是，逻辑回归是一种线性模型，它对输入特征的线性关系有一定的假设。如

果数据存在复杂的非线性关系，逻辑回归可能无法很好地拟合数据，此时可以考虑使用其他

更复杂的模型。

(2)训练模型

(3)调参

调参代码如下：

在上述代码中，我们首先定义了逻辑回归模型的超参数候选值param_grid，包括正则化

系数C的候选值。然后，使用GridSearchCV创建网格搜索对象，指定模型、超参数候选值

和交叉验证的折数（这里设为5）。接下来，使用fit方法在训练集上进行网格搜索，找到

最佳的超参数组合。然后，使用best_estimator_属性获取最佳模型。最后，在测试集上进行

预测，并计算准确率。

最后结果输出：

3．随机森林模型

(1)模型原理

随机森林是一种集成学习方法，用于解决分类和回归问题。它由多个决策树组成，

每个决策树都独立地进行训练，并通过投票或平均等方式综合各个树的预测结果来作出

最终的预测。随机森林的原理基于决策树，它在每棵树的训练过程中引入了两个随机性

源：随机选择样本和随机选择特征。在样本方面，随机森林从原始数据集中

您可能关注的文档

文档评论（0）

各类考试卷精编 + 关注: 官方认证

内容提供者

各类考试卷、真题卷

咨询Ta 进入空间

认证主体社旗县兴中文具店（个体工商户）

IP属地河南

统一社会信用代码/组织机构代码: 92411327MAD627N96D

1亿VIP精品文档

更多 >

贷款违约预测数据分析报告.pdf