XGBoost算法在信用风险量化中应用.docVIP

下载本文档

202
0
约5.04千字
约 10页
2018-08-11 发布于福建
举报
版权申诉

XGBoost算法在信用风险量化中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XGBoost算法在信用风险量化中应用

XGBoost算法在信用风险量化中应用　　【摘要】近年来，消费金融飞速发展，然而市场中的信贷违约风险也随之增大。在这种情况下，个人网络消费信用保险应运而生。信用保险是以信用风险为标的的保险，保险公司根据不同的信用风险水平收取高低不同的保费，是符合市场规律的做法。违约概率PD是保费厘定公式中的一个重要因子，本文介绍了用XGBoost[1]算法构建违约概率PD预测模型的过程。XGBoost算法是一种高效准确的分类算法，通过本次实践检验，XGBoost确实表现出了优越的性能。　　【关键词】信用保险；保费定价；XGBoost；信用风险　　引言：　　作为拉动经济的三驾马车之一，消费正在成为拉动我国经济增长的火车头，消费金融凭借“先享后付“的特点，对刺激消费有很大的作用。伴随着互联网和金融科技的飞速发展，消费金融在最近几年也呈现了爆发式增长，然而，市场中的信贷违约风险也随之增大。针对承接风险的市场需求，个人网络消费信用保险应运而生。个人网络消费信用保险是指在保险期间内，通过互联网进行信用消费活动的用户未能按照网络消费合同约定的付款金额和期限完成付款义务，则由保险人按约定向被保险人支付该用户网络消费项下的应还全部欠款。投保人和被保险人是消费金融公司或者资金出借方，保险人就是保险公司。信用保险是以信用风险为标的的保险，保险公司根据不同的信用风险水平收取高低不同的保费，是符合市场规律的做法。违约概率PD是保费厘定公式中的一个重要因子，本文以某保险公司个人网络消费信用保险产品的差异化定价项目为背景，介绍了笔者应用历史数据和XGBoost算法，构建违约概率预测模型的过程。模型的应用将使每一份贷款申请都能得到自己的违约概率，从而得到自己的保费定价，最终实现保险产品的差异化定价。　　eXtreme Gradient Boosting （XGBoost）是一种基于梯度Boosting 的集成学习算法，其原理是通过弱分类器的迭代计算实现准确的分类效果。梯度Boosting 因高效性和准确性被广泛应用于分类和预测问题。本文将XGBoost 引入到信用风险量化的问题中。结果表明，与传统机器学习算法相比，XGBoost具有速度快、准确度高等优势。　　一、数据描述　　本文所使用的数据集来源于一家消费金融平台，他们的产品是一个用户和消费信贷企业之间的撮合平台，用户在此平台上申请贷款，最后平台会根据用户的申请资料对接符合其条件的贷款机构，由贷款机构放款给用户。贷款金额分三个档次：2000元，4000元，6000元，还款期限为三个月，每月等额本息还款。　　此数据集包含从2016年9月到2017年1月在此消费金融平台申请贷款的共499971名用户的多维度信用相关数据和一个完整的还款周期的表现数据。信用相关数据包括申请者的基本申请信息，历史履约记录，机构评分和行为日期等方面，这些数据在经过处理后将作为建立风控模型的自变量X。还款表现数据在根据违约定义进行处理后将作为建立风控模型的因变量Y。原始变量的具体字段汇总于表1。　　二、数据预处理　　数据预处理对数据挖掘是一个重要的问题，因为现实中的数据多半是不完整的、有噪声和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据规约[2]。　　（一）数据清理　　数据清理进行了以下操作：将年龄小于零的值替换为空值；历史逾期次数和历史逾期天数补零；用众数填补离散变量，用中位数填补连续变量；将学历中的代表”未知”的值0置换为10，以使学历在数值上变为从“硕士以上”到“未知”的有序变量；将用户评级A、B、C、D用数字1、2、3、4替代，使此变量从类别变量变为有序变量。　　（二）数据变换　　数据变换进行了以下操作：将籍贯和居住地中的省和市分开，省和市分别成为新字段；用申请时间减去合同开始时间，衍生出时间差变量，可以反映贷款人对贷款需求的紧急程度，记为APPSubCtrctStt；将申请时间转化为上旬中旬和下旬，衍生出一个新变量；将合同开始时间转化为上旬中旬和下旬，衍生出一个新变量；用历史最大逾期天数除以借款次数，衍生出一个变量，记为hist_borrow_rate；用历史最大逾期天数除以借款次数，衍生出一个变量，如果历史借款次数是空值，给此变量付值0.05，用以区分复贷没有逾期的客户和首贷没有逾期的客户，记为hist_borrow_rate1；对类别变量：性别，职业，收入类型，是否有社保，是否有房，是否有信用卡，申请月份上中下旬，合同开始时间上中下旬，居住城市水平（一二三四线），籍贯城市水平（一二三四线），居住省方位和籍贯省方位，进行one-hot编码；对数值型变量：年龄，学历，收入等级，社交分，基础信息分，历史行为分，通信行为分，量信分，好信分，芝麻粉，用户评级，历史借款