- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * 梯度提升机机(GBM,Gradient Boosting Machine)是一种Boosting的方法,其提高模型精度的方法与传统Boosting对正确、错误样本进行加权不同,该模型通过在残差减少的梯度(Gradient)方向上建立一个新的模型,从而降低新模型的残差(Residual)。即每个新模型的建立是为了使得之前模型的残差往梯度方向减少。 了解GBM算法 1. GBM算法介绍 优点:GBM模型可以灵活处理各种类型的数据,包括连续值和离散值。相对SVM来说的,它在相对少的调参时间情况下,预测的准备率也可以比较高。使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如Huber损失函数和Quantile损失函数。 缺点:由于弱学习器之间存在依赖关系,难以并行训练数据,调参与训练时间长。 了解GBM算法 2. GBM模型的优缺点 GBM算法属于Boosting大家庭中的一员,自算法的诞生之初,它就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年来更因为被用于构建搜索排序的机器学习模型而引起广泛的关注。除此之外,GBM算法还是目前竞赛中最为常用的一种机器学习算法,因为它不仅可以适用于多种场景,而且相比较于其他算法还有着出众的准确率。因此在竞赛和工业界使用都非常频繁,能有效地应用到分类、回归、排序问题。 了解GBM算法 3. GBM模型的使用场景 在R语言中,GBM算法可以使用gbm包中的gbm函数来实现,其基本使用语法如下。 gbm(data = list(), distribution = bernoulli, n.trees = 100, interaction.depth = 1, shrinkage = 0.001,…) 常用参数及其说明,如表所示。 了解GBM算法 4. gbm函数及其参数介绍 参数 说明 data 接收list。代表进行训练的数据。无默认。 distribution 接收character。代表损失函数的形式。默认为bernoulli。 shrinkage 接收numeric。代表学习速率。默认为0.001。 n.trees 接收integer。代表迭代次数。默认为100。 interaction.depth 接收integer。代表学习的基础深度。默认为1。 使用ROC曲线评估建立的GBM模型,如图所示。 由图可以发现GBM模型的ROC曲线下方面积远大于ROC曲线上方面积,说明模型分类效果较好,能应用于用户还款逾期的概率预测。 评价GBM模型 ROC(Receiver Operating Characteristic)曲线是一种非常有效的模型评价方法,可为选定临界值给出定量提示。样本的TPR(真正率:True positive rate)为纵轴,FPR(假正率:False positive rate)为横轴,就可得出ROC曲线图。该曲线下的积分面积(Area)大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近1说明该算法效果越好。 通过图可以看出,在用户还款逾期率影响因素中,第三方信息占比最大,说明了第三方信息的重要性。印证了数据探索阶段得出的结论,第三方信息是用户还款逾期的关键因素之一。 结果分析 用GBM模型计算特征的重要性排名前20位如图所示。 根据用户借款的月份与逾期率的关系可知在阳历新年前1-2个月,农历新年后1-2个月,用户逾期还款的概率较高,且考虑到某些用户纯粹是为了缓解新年资金压力转向P2P信贷,所以在这段时间应该缩小信贷规模或提高信用门槛,减少逾期带来的损失。 考虑将用户完善个人信息作为贷款申请流程之一,若完善度不达标,则提醒完善信息,完善后方可进入下一阶段。 在用户申请贷款后,统计用户修改信息的天数、频率,若用户频繁地修改个人信息,应适当降低该用户的信用评级。 观察发现,特征UserInfo_18排序靠前。这个特征代表用户的年龄,可见不同年龄的用户逾期率存在较大差别,因此在实际业务中考虑将用户年龄作为审批标准之一。 结果分析 依据构建模型得出的重要性排名,以及数据探索阶段得出的结论,对现阶段业务提出几点建议。 1 探索P2P信贷用户逾期的相关因素 目录 认识P2P信贷行业的风险控制 2 预处理P2P信贷用户数据 3 构建用户逾期还款概率预测模型 4 小结 5 本案例主要目的是通过数据分析的方法构建出P2P信贷用户还款逾期率模型。重点介绍了数据探索和数据清洗的内容,并深度挖掘出影响用户还款逾期的重要因素。根据以上挖掘结果,为某P2P信贷企业提出了后期业务改进意见。 小结 * * * * * * * * * * * * * * * * * * * * * * * 大数据,成就未来 * 大数
您可能关注的文档
最近下载
- 2025江苏连云港东海县第二批招聘社区工作者20人备考题库及答案解析.docx VIP
- 现代网络理论.doc VIP
- DB15T 3438-2024 产气荚膜梭菌分离与鉴定操作规程.docx VIP
- 2025至2030中国土壤修复行业前景预测及发展趋势预判报告.docx VIP
- 升压站培训课件.pptx VIP
- 2024人教版英语七年级上册Starter Unit 2 Keep Tidy! A(pronunciation) 课件.pptx
- 2025江苏连云港东海县第二批招聘社区工作者20人考试备考题库及答案解析.docx VIP
- 政治安全宣传知识培训课件.pptx VIP
- 广美版(2024)小学美术一年级上册教学设计(附目录).docx VIP
- 道法教案新版.docx VIP
文档评论(0)