- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于logistic回归的P2P借贷违约率预测模型的构建研究.doc
基于logistic回归的P2P借贷违约率预测模型的构建研究 【摘要】由于当前国内征信体系的不完善,互联网信息不对称的现象严重,导致P2P借贷市场发生违约风险的可能性比较大。投资人无法根据平台公布的信息正确判断其面临的违约风险。因此,本文通过以Logistic回归模型为基础构建适用于P2P借贷领域的违约率预测模型,对拍拍贷4970笔借款项目进行实证分析。实证结果表明,构建的预测模型对违约率的预测有79%的正确率,并且预测违约率符合正态分布。 【关键词】P2P借贷;违约风险;违约率预测;logistic模型 一、引言 目前,国内P2P借贷处于征信体系不完善、互联网信息不对称现象严重的大环境下,造成投资人无法真正有效的运用互联网大数据掌握借款人真实的信用状况及违约风险,以便作出正确的投资策略。 如何对P2P借贷违约率预测模型进行构建,这个问题国内外学者间产生了很大的关注度。在对违约率预测模型进行研究前,首先需要对P2P借款造成违约可能的影响因素进行相关研究。如Freedman Jin(2008),Barasinska(2009)、Mingfeng Lin et al.(2012)和陈建中(2013)、杨立(2014)的研究就分别从个人基本信息、交易行为、社会资本等不同的视角对借款人违约影响因素进行了研究分析。在此研究的基础上,Vedala Kumar(2012)使用一个多重关系的贝叶斯分类方法来预测借款人的违约概率,高见(2014)运用核权重的方法对借款的违约概率进行了预测,并且完善了贷款组合的风险评估模型。经过对相关文献的学习与梳理,本文选取对违约率影响比较显著的因素作为违约率预测模型的基础变量,进行进一步的违约率预测模型的实证研究。 本文以拍拍贷作为违约率预测模型的研究对象,主要是由于拍拍贷作为中国成立最早的P2P借贷平台,积累了大量的用户量及信用信息。另外,拍拍贷作为中国唯一的纯线上中介平台,始终注重信用数据的采集和审核,注重引入微博、亲友信息等社交资本对平台运营进行不断创新。并且始终将其信用信息公开,为研究提供了很多便利。因此,拍拍贷是一个理想的数据分析与实证验证的平台。 二、研究模型 本节针对如何将平台的公布信息转化为更为直观、准确的预测违约率,构建一个适用于P2P借贷的违约率预测模型来解决这个问题。 首先,提出违约率预测模型的基本假设。 假设1:违约率是在[0,1]的区间内,且分布具有相连有序的规律。 假设2:在交易过程中对违约行为有影响的因素,同样对违约率产生作用。 假设3:从整体上看,违约率是呈正态分布的规律来表现的。 假设1的合理性在于:a.违约率是一个概率,所有的概率都是介于0和1之间;b.违约率应该是一个可以量化出来的指标,除此以外还要满足是定比的尺寸,每一个不同的违约率是具有比较意义的。假设2的合理性显而易见。如果样本的大小是趋于无限值的时候,那么第三个假定也有可行性的。 其次,构建P2P借贷违约率的预测模型。 三、样本数据与变量选择 本研究主要采用爬虫软件的编程采集拍拍贷P2P借贷平台的数据。数据采集从2014年1月1日至2014年8月20日,获得共计11000笔借款信息。对于同一个ID,需要采集两次信息,第一次是用户发布借款时的信息,包括借款基本信息、借款信用等级、审核信息等;第二次是采集该笔借款的状况信息,包括是否获得贷款和是否违约。由于每笔借款需要经历完借款期限才能判别是否违约,并且去除数据缺失的部分,最终保留下来的借款为8454笔。对于这8454笔借款,为了排除单个借款人信息重复的干扰,仅保留最新的一笔借款,最终保留借款为4970笔。 本文主要是对为了得出拍拍贷的预测违约率,因此将借款人的违约状态作为被解释变量。借款人违约记为1,不违约记为0。 解释变量是基于国内外P2P借贷违约影响因素的研究与国内P2P借贷平台的实际状况进行选取的,主要从借款者特征、借款特征、信用特征及社会资本四个维度对违约率情况进行预测。其中,选择社会资本进入回归模型,主要是考虑拍拍贷的运作模型的在国内的独特性。其通过微博认证、亲友身份证认证等举措将借款者的社交网络纳入了对借款者信用的考察。并且根据国内的相关研究结果表明,社交资本与违约率有显著的负相关关系。因此,本文将社会资本纳入了考察范围。另外,本文在充分参考相关研究成果的基础上,去除了具体可能的共线变量后,得到最终的解释变量的体系。如表1所示。 四、logistic回归实证分析 研究利用SPSS 19.对数据进行了logistic模型分析,具体的实证结果如下。 模型1的R方值为32%,表明模型1的整体拟合程度较好,模型中的解释变量可以较好地对被解释变量进行解释。从SPSS输出的实证结果得出,借款金额、借款利率、性别、每月还款金额在1%水平下对借款人违约的概率有正相关的
文档评论(0)