- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于机器学习算法的信用风险预测模型研究
?
?
李丽赵陆亮陈军
【摘要】为了解决西南财经大学“新网银行杯”竞赛数据中存在的高维稀疏数据、无标签数据、多产品客群来源及好坏样本不平衡等问题,采用机器学习方法,如Logistic回归、决策树、Adaboost、GradientBoosting和LGB模型对数据进行训练,得出LGB模型的性能评价指标AUC数值最大的结论。
【关键词】信用风险预测;机器学习;性能评价指标
F830.589A1674-0688(2021)03-0046-03
1研究背景
银行信用风险评估一直是学术研究和商业银行管理领域重要的研究话题。信贷信用风险是银行所面临的信用风险中最重要的一个部分,又由于银行是整个金融系统的核心,银行的主要资产业务是银行对企业发放的贷款,若企业由于破产或资金流动性等原因无法按期偿还贷款甚至造成违约会给商业银行带来巨大的损失。此外,商业银行不良贷款率的不断提升也会导致整个金融市场风险的提升。因此,商业银行能否获得性能极好又切实可行的信用風险预测模型,对于银行金融机构乃至整个金融市场至关重要。
早期的预测模型大多使用传统计量和统计方法,例如多元判别分析方法、Logistic回归分析方法等。近年来,随着人工智能的兴起、机器学习和数据挖掘在世界范围内的推广,帮助商业银行风险预测获得了新的、更有效的预测方法,也预示着在商业银行信用风险预测领域,人工智能方法会逐渐取代传统统计方法,成为预测商业银行信用风险的首选方法。
2文献回顾
EkinciErdal(2011)[1]对土耳其的35家私人商业银行进行分析,比较了SVM方法和神经网络方法的预测精度。余晨曦等人(2008)[2]运用支持向量机技术(SVM),构建了基于支持向量机的我国商业银行信贷信用风险度量模型,将支持向量机的非线性分类器应用到贷款违约的判别中,研究发现SVM可以处理非线性分类问题,但不能很好地估计违约概率。李佳等人(2018)[3]将SVM、BP神经网络和PCA变量降维处理结合使用,对2015—2016年我国的144家沪深上市公司开展研究和预测,最后得出了良好的预测能力。
3数据来源及解析
3.1数据来源
本文数据是来自DC竞赛网中的西南财经大学“新网银行杯”数据科学竞赛,四川新网银行已经开发出了国内第一款全在线办理的银行大额云授信产品——“好人贷”。比赛提供真实业务场景下的脱敏数据,在“好人贷”的量化风控实践中,四川新网银行面临多个维度的挑战:高维数据、稀疏数据、无标签样本、多产品客群好坏样本不平衡等。其中,对于包含多产品(客群)的高维特征数据和表现数据(部分有标签,部分无标签),邀请参赛者对数据进行探索分析,综合利用监督和半监督机器学习算法、迁移学习算法等设计区分能力高、稳定性强的信用风险预测模型,对客户信用风险进行预测。
通过初步的数据分析,我们发现数据的特征缺失严重,可能会对模型的预测带来干扰,并且虽然特征维度仅有157维,但是由于是匿名特征,因此很难确定数据的具体含义。脱敏数据不能使用相关性分析方法,也不能构造新的特征,所以在数据清洗中对缺失值的处理与分析和模型的训练与评估都是需要我们解决的关键问题。
3.2数据解析
此次竞赛提供的数据包括用户id,157项脱敏的属性/行为特征,以及是否属高风险用户的标签项。一共有3个文件,数据描述如下。
(1)train_xy.csv,带标签的训练集数据,共15000条。
(2)train_x.csv,不带标签的训练集数据,除无标签字段‘y外,其余字段与train_xy.csv相同,共10000条。
(3)test_all.csv,测试集数据,除无标签字段‘y外,其余字段与train_xy.csv相同,共10000条。
train_xy数据节选如图1所示。
那么,根据赛题任务与数据,可以将问题转化为“二分类”问题,0代表低风险客户,1代表高风险客户,赋值为0的个数有14309,为1的个数为691,0和1的数量比值为21∶1,不同cust_group的样本分布也不平衡(见表1)。
评估指标为AUC=0.3×AUC1+0.3×AUC2+0.4×AUC3,并且提供有/无标签数据样本,可以使用监督与半监督方法综合预测用户的信用风险概率。
4数据清洗与处理
4.1缺失值分析
根据数据介绍,x变量的缺失值统一以-99表示,我们首先对每个x特征变量,在列方向上进行缺失值的个数统计,从而转化为缺失率。缺失率的大小可以表明某个特征缺失是否严重及严重程度。以train_set为例,从图2中可以更加直观地看出,有较多的特征缺失率高达100%,说明这些特征缺失严重,可能会对模型预测带来干扰。
4.2缺失值处理
根据上面的分析,几乎所有数据都存在缺失值-99。
您可能关注的文档
- 创建绿色图书馆-构建和谐社会.docx
- 大统战视阈下高校统战工作创新研究.docx
- 海外电力工程投标报价方法及分析.docx
- 初探水土保持的工程措施.docx
- Intel-Xeon-E5-2430Lv2-服务器CPU技术规格.docx
- 利用信息技术提高小学音乐课堂教学效率.docx
- 化学丨湖南省湘东十校(暨炎德·英才名校联合体)2025届高三10月联考联评化学试卷及答案.docx
- 中国奶业经济月报2024年10月.pdf
- 物理丨河南省豫西北教研联盟(许洛平)2025届高三上学期10月第一次质量检测物理试卷及答案.docx
- 物理丨金太阳(25-69C)广东省2025届高三10月大联考物理试卷及答案.docx
- 物理-河南省豫西北教研联盟(许洛平)2025届高三上学期第一次质量检测(许洛平一模)试题和答案.pdf
- 英语-河南省豫西北教研联盟(许洛平)2025届高三上学期第一次质量检测(许洛平一模)试题和答案.docx
- 2024新版初三物理第五单元课件.pptx
- 人教版高中数学选修一、二三手写笔记.docx
- 生物-河南省豫西北教研联盟(许洛平)2025届高三上学期第一次质量检测(许洛平一模)试题和答案.docx
- 语文丨金太阳百校联考(25-71C)江苏省2025届高三10月联考语文试卷及答案.docx
- 英语丨金太阳(25-69C)广东省2025届高三10月大联考英语试卷及答案.docx
- 化学丨金太阳(25-69C)广东省2025届高三10月大联考化学试卷及答案.docx
- 地理丨湖南省湘东十校(暨炎德·英才名校联合体)2025届高三10月联考联评地理试卷及答案.docx
- 地理-河南省豫西北教研联盟(许洛平)2025届高三上学期第一次质量检测(许洛平一模)试题和答案.docx
文档评论(0)