互联网金融时代下机器学习与大数据风控系统..docx

下载文档 降价啦

12
0
约4.34千字
约 9页
2017-01-10 发布于重庆
举报
版权申诉
保障服务

互联网金融时代下机器学习与大数据风控系统..docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

互联网金融时代下机器学习与大数据风控系统.

互联网金融时代下机器学习与大数据风控系统随着互联网的发展，互联网金融已成为当前最热门的话题，包括支付、理财、众筹、消费等功能在内的各类互联网金融产品和平台如雨后春笋般涌现。互联网金融是传统金融行业与互联网精神相结合的新兴领域，是对传统金融行业的有效补充，因此互联网金融的健康发展应遵循金融业的基本规律和内在要求，核心仍是风险控制。　传统金融的风险控制，主要是基于央行的征信数据及银行体系内的生态数据依靠人工审核完成。在国内的征信服务远远不够完善的情况下，互联网金额风险控制的真正核心在于可以依靠互联网获取的大数据，如BAT等公司拥有大量的用户信息，这些数据可以用来更加全面的预测小额贷款的风险。而机器学习将是大数据时代互联网金融企业构建自动化风控系统的利器。　1. 什么是机器学习？　机器学习这个词相信大家都是耳熟能详，尤其是近几年机器学习界的执牛耳者与互联网界的大鳄的联姻（见图1），更加推动了大众对机器学习的追求热情和在互联网行业中应用的探索热情。　那么，什么是机器学习呢？机器学习这个词是英文名称Machine Learning的直译，从字面意义不难知道，这门技术是让计算机具有 “自主学习” 的能力，因此她是人工智能的一个分支。我个人还是比较喜欢Tom Mitchell 在《Machine Learning》一书中对其的定义：　A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.　关于机器学习的具体概念及介绍，有很多这方面的资料，有兴趣的话大家可以去查看，在这里我就不赘述。简而言之，机器学习方法就是计算机利用已有的数据（经验），得出某种模型，并利用模型来预测未来的一种方法，这种方法很类似于人类的思考方式（见图2）。也就是说，机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机对数据的处理计算得出模型的过程。　机器学习与人类思考的对比　2. 机器学习算法的类型　一般来说，机器学习算法可以分为监督学习，无监督学习，半监督学习，强化学习（Reinforcement learning）以及推荐这几大类。各部分常见应用场景和算法详见图3。　　图3：机器学习算法分类　3. 机器学习在互联网金融行业中的应用　在企业数据的应用的场景下，人们最常用的主要是监督学习和无监督学习的模型，在金融行业中一个天然而又典型的应用就是风险控制中对借款人进行信用评估。因此互联网金融企业依托互联网获取用户的网上消费行为数据、通讯数据、信用卡数据、第三方征信数据等丰富而全面的数据，可以借助机器学习的手段搭建互联网金融企业的大数据风控系统。　除了在放贷前的信用审核外，互联网金融企业还可以借助机器学习完成传统金融企业无法做到的放贷过程中对借款人还贷能力进行实时监控，以及实时对后续可能无法还贷的人进行事前的干预，从而减少因坏账而带来的损失。以点融网为例，经过这两年的发展，我们积累了很多用户的借款还款信息，这为我们提供了高质量的模型训练样本，也为我们搭建点融的大数据自动化审批系统奠定了坚实的基础。除了自动化审批系统外，后续我们将在用户还款能力实时监控，标的的有效组合，资产的合理配置等方面进行发力。　目前互联网金融企业以及第三方征信公司在信用评估这方面比较常用的架构是规则引擎加信用评分卡。说到信用评分卡，最常用的算法就是Logistic Regression，这也是被银行信用卡中心或金融工程方面奉为法宝的算法。的确，Logistic Regression因其简单、易于解释、开发及运维成本较低而受到追捧。然而互联网中获取的用户的数据维度较多，以离散或分类属性变量居多，且缺失数据较多，在这种情况下，Logistic Regression的适应性会较差。而且规则引擎和信用评分卡模型分开的模式，有时会因为规则引擎里面某些规则过强而拒绝掉很多优质客户。比如，某人因学生时代的助学贷款在刚毕业时未能及时偿还而发生过逾期，按现有银行审批规则是无论现在怎样，申请信用卡时一律拒绝。因此比较好的改进方法是，将规则引擎作为一系列弱的分类器，与信用卡评分分类器一块构成强的分类器模型。在这方面，GBDT将是一个不错选择。　GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree),该模型不像决策树模型那样仅由一棵决策树构成，而是由多棵决策树构成，通常都是上百棵树，而且每棵树规模都较小（即树的深