- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
贷款违约预测数据分析报告
目录
一、选题背景介绍.3
二、数据预处理.3
三、模型建模.7
四、模型性能分析.9
五、总结10
一、选题背景介绍
本次选题来自阿里云天池大赛——贷款违约预测。该实验以金融风控中的个人信贷为背
景,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款。本
次主要解决的是分类问题,预测贷款人是否有违约的可能,以此来判断是否通过此项贷款。
二、数据预处理
本次研究数据量大小:800000条记录,47字段。(由于本次数据量大,直接用该数据作
为训练集以及测试集数据)利用info()查看数据整体情况,结果如下:
1.重复值检查
利用train_data.duplicated().sum()进行重复值检查,结论:无重复数据。
2.缺失值检测
查看缺失情况,如下:
对缺失值进行填充:
对缺失数据为数值型的数据进行中位数填充数据,对缺失数据为字符型数据用众数进行
填充。具体代码如下:
3.异常值检查
利用Z-score方法通过计算数据点与其均值的偏差量的标准差来检测异常值。具体做法
是计算每个数据点的Z-score,如果Z-score超过了某个阈值(通常是3),则将其视为
异常值。利用该方法对数值型数据进行异常值检查并处理,具体如下:
4.数据转换
对部分字符型数据进行数据转换,如字段“employmentLength”,查看原始数据:
对该字段转换成数值型数据,最后得到:
5.数据转换
利用函数get_dummies()对分类数据进行数值化转换,最后得到数据:
对null数据直接剔除,
得到最后数据量大小:(753201,139)
三、模型建模
1.将数据分为训练集与测试集
代码如下:
2.逻辑回归
(1)模型原理
逻辑回归是一种用于分类问题的机器学习算法。尽管名为尽管名为回归回归,但实际上逻辑回归用
于预测离散的类别标签,而不是连续的数值。逻辑回归的原理基于线性回归,并使用了一种
称为称为逻辑函数逻辑函数(或称为(或称为函数函数)的非线性函数来进行分类。逻辑函数将输入值映射
到一个介于0和1之间的输出值,表示某个样本属于某个类别的概率。
需要注意的是,逻辑回归是一种线性模型,它对输入特征的线性关系有一定的假设。如
果数据存在复杂的非线性关系,逻辑回归可能无法很好地拟合数据,此时可以考虑使用其他
更复杂的模型。
(2)训练模型
(3)调参
调参代码如下:
在上述代码中,我们首先定义了逻辑回归模型的超参数候选值param_grid,包括正则化
系数C的候选值。然后,使用GridSearchCV创建网格搜索对象,指定模型、超参数候选值
和交叉验证的折数(这里设为5)。接下来,使用fit方法在训练集上进行网格搜索,找到
最佳的超参数组合。然后,使用best_estimator_属性获取最佳模型。最后,在测试集上进行
预测,并计算准确率。
最后结果输出:
3.随机森林模型
(1)模型原理
随机森林是一种集成学习方法,用于解决分类和回归问题。它由多个决策树组成,
每个决策树都独立地进行训练,并通过投票或平均等方式综合各个树的预测结果来作出
最终的预测。随机森林的原理基于决策树,它在每棵树的训练过程中引入了两个随机性
源:随机选择样本和随机选择特征。在样本方面,随机森林从原始数据集中
文档评论(0)