- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
中文科技期刊数据库(全文版)经济管理
中文科技期刊数据库(全文版)经济管理
基于SMOTE算法机器学习模型对P2P网贷平台借款人违
约行为研究——基于人人贷数据分析
赵亚平
上海建桥学院,上海200000
摘要:P2P网贷平台作为互联网金融的重要模式,近年来快速发展,但借款人违约风险始终是行业的核心挑战。
以“人人贷”为代表的平台积累了海量交易数据,为机器学习模型的应用提供了基础。传统违约预测模型常面临
样本不平衡问题,导致模型对少数类的识别能力不足。SMOTE算法通过生成合成样本有效缓解数据不平衡,提升
机器学习模型对违约行为的预测精度。研究依托两大趋势:一是金融科技对风控智能化的需求,监管政策要求平
台加强风险定价能力;二是机器学习在信用评估中的普及,SMOTE与集成学习的结合成为解决样本不平衡问题的
前沿方向。基于人人贷真实数据的研究,不仅能验证SMOTE算法的实践价值,还可为P2P平台优化风控模型提供
方法论支持。
关键词:SMOTE算法;P2P网贷平台;借款人违约行为
中图分类号:F832.4
1样本选择与数据描述远高于女性,前者占比超过八成;3、借款人工作年
限普遍较短,工作年限在三年及以下的借款人超过70%;
1.1研究样本
4、样本的违约率为1.91%,最高违约金额在156,540
本文抓取了人人贷网站上共计55471条经历完还
元。
款期限的借款订单数据。
1.2自变量选取与描述性统计
目前,“人人贷”网站上能够获取的信息包括借
款人特征信息、借款人经济信息和平台信息三个方面
的信息。(见表1)
表1自变量描述
变量分类变量名备注
年龄男性赋值1,女性赋值0。
高中或以下赋值0,大专赋值1,
学历
借款人特本科赋值2,硕士及以上赋值3。
征信息“人人贷”将婚姻状况划分为“未
婚姻状况婚”、“已婚”、“离异”、“丧图1借款人信息与违约情况
偶”,分别赋值0-3。
薪资借款人月薪。2数据处理与模型建立
借款人经“人人贷”将工作年限划分为1年
济信息工作年限(含)以下,1-3年(含),5年2.1随机过采样
以上,分别赋值0-3。
成功借款数据处理与模型建立是核心环节。针对“人人贷”
借款人的历史还清借款次数。
平台信息次数平台数据中普遍存在的类别不平衡问题(正常还款样
借款金额本次借款金额。
利率年化借款利率。本远多于违约样本),本研究采用随机过采样(Random
通过对数据的整理(见图1),我们发现:1、借Oversampling)与SMOTE(SyntheticMinority
款人学历普遍偏低,高学历借款人(本科、硕士及以OversamplingTechnique)相结合的混合采样策略。
上)只占约20%;2、在“人人贷”上进行借款的男性具体而言,首先对原始数据进行预处理,包括缺失值
填补、异常值处
初级会计持证人
专注于经营管理类文案的拟写、润色等,本人已有10余年相关工作经验,具有扎实的文案功底,尤善于各种框架类PPT文案,并收集有数百万份各层级、各领域规范类文件。欢迎大家咨询!
原创力文档


文档评论(0)