基于改进SMOTE方法处理类不平衡数据的网贷违约预警研究.pdfVIP

基于改进SMOTE方法处理类不平衡数据的网贷违约预警研究.pdf

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

基于改进SMOTE方法处理类不平衡数据的网贷违约预警研究

数据类不平衡问题,指样本中不同类别标签的数据在数量上具有差异,并非

理想化的平衡分布。这一现象广泛存在于诈骗检测、医疗诊断、风险预警等分类

问题中,对分类算法精度和评价指标切实性会产生不容忽视的负面影响。

信贷违约预警问题是一种典型的风险预警问题,而网贷是信贷的一种创新形

式。网贷作为当今“互联网+金融”背景下的一种创新产物,近年在体量上由高

速上升骤然转为急剧下滑。在满足个人及小微个体的融资需求之余,监管体系不

完善、平台及投资者风控能力不足以及互联网载体的特殊性,导致行业问题逐渐

暴露并引发清退浪潮。借款方逾期还款行为难以遏制,平台“爆雷”和“跑路”

现象时有发生,投资者直接面临资金损失。因借款方不能及时履行资金偿还义务

而产生的信用风险是网贷行业面临的最为严峻风险之一。传统银行信贷业务中应

对信用风险已有较为成熟的技术,例如以信用评分综合考察借款方收入状况、历

史信用、社会关系等背景信息。但网贷模式具有新颖性和特殊性,平台对借款方

的信息调查往往十分有限。对于平台和投资者,具有针对性地建立网贷违约预警

模型,即根据借款方有限信息对其未来履约行为进行预测,以此作为出借决策的

参考,是有必要的。

本研究通过文献阅读归纳总结了类不平衡处理领域和信贷违约预警问题的

发展历程,并规划了研究路线:将网贷违约预警问题抽象为二分类问题,应用机

器学习分类模型拟合训练数据并评价测试结果。针对风险预警领域中常常存在的

数据类不平衡问题,即稀有的违约样本数量往往远小于非违约样本,本文着眼于

流行的少数合成过采样技术(SMOTE),即以已有样本人工合成新的少类样本,

扩充样本数量以达类别平衡。同时,考虑到SMOTE方法的局限性,遵循已有改

进研究的思路进行更进一步的探索,结合更灵活的均值漂移聚类方法,提出新的

改进SMOTE方法。

以我国规模前列的网贷平台为例,通过爬虫获取52304条借贷交易数据进行

实证,以多种特征选择方法对36个变量进行筛选和降维。以改进SMOTE方法

合成新的少类样本加入训练集,以决策树、随机森林等五种分类器分别拟合数据,

进行对比实验。选用侧重少类的评估指标,验证改进SMOTE方法对各分类器性

能的提升效果。结果表明,决策树和随机森林两种树模型的综合表现最佳,且改

进方法对决策树的分类精度提升最大;所引入的均值漂移聚类方法也被证实是传

统聚类方法的更优替代选择。本文所构建的网贷违约预警模型,在真实网贷平台

数据集上有着良好的拟合和性能表现;对SMOTE方法的改进在实证中得到了正

向反馈,模型的准确性和可靠性得到了进一步提升,这在理论和现实方面均有一

定的参考价值。

关键词:

类不平衡,网贷违约预警,机器学习,SMOTE

Abstract

ResearchonOnlineLoanDefaultEarlyWarningBasedonImproved

SMOTEMethodtoProcessUnbalancedData

Theproblemofdataimbalancereferstothefactthatthenumberofdatawith

differentlabelsinthesampleisdifferent,whichisnotanidealbalanceddistribution.

Thisphenomenonwidelyexistsinfrauddetection,medicaldiagnosis,riskearly

warningandotherclassificationproblems,whichhasanegativeimpactontheaccuracy

ofclassificationalgorithmandthepracticalityofevaluationindex.

Creditdefaultearlywarningisatypicalriskearlywarningproblem,andonline

loanisa

您可能关注的文档

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档