- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
风控业隽背景互联网金融相对于传统金融出现更多机遇和挑战。如何将机器学习、深度学习等前沿人工智能技术赋能于金融风控领域,打造金融科技
(FINTECH),已经成为大家关注的焦点。高性能、高可靠、易维护的风控模型是支持风控策略迭代的基础。本文主要探讨一种适用于大数据风控的建模框架,并尝试分析功能模块设计、优势与不足、解决方案。
目录
Part1.大数据风控的特点和挑战
Part2.传统评分卡的优势和不足
Part3.机器学习的优势和不足
Part4.大数据信贷风控模型架构
Part5.总结
1
Parti.大数据风控的特点和挑战互联网金融相对于传统金融在业务模式上具有诸多不同点:传统金融的订单数少、订单金额高、贷款期限长、客群资质好、风控预算高。
互联网金融订单数多、订单金额低、贷款期限短、客群资质差、风控预
算低。互联网金融相对于传统金融在风控上具有更多挑战,这包括:
?长尾劣质客群更加不稳定,这容易导致样本波动,加大风控建模难
度。
?互金市场波动剧烈,需加快模型迭代更新周期。例如,2018年6、
7月份的P2P暴雷潮”。
?数据源采集上种类更多,弱相关数据更多,处理难度更大。这就需要人工智能技术。
?政策合规要求,数据采集和使用更加规范化。例如,近期国家对数
据非法爬取的集中整治。
1=1随着监管趋严和行业愈加规范化大数据风控尤其是基于弱数据
1=1
的风控正成为线上信用贷业务最重要的核心竞争力数据是风控的
基础,只有对借款人全方位的理解,我们才能做好风控。一般可将风控
数据分为四部分:
?资质类数据:包括真实的身份信息、学历(大专、本科、研究生等)、收入、职业(白领、蓝领等)、人脉信息等。
?信贷类数据:包括央行征信报告、内部信贷历史(申请、还款、催收)、第三方征信数据、第三方多头借贷数据等。
?消费类数据:包括电商消费记录、信用卡账单、借记卡流水等。
?行为类数据:包括埋点行为(前端、后端)、设备App、活动轨迹、
内容偏好(浏览商品、新闻)等。
自上而下,这些数据与逾期信用风险的相关性逐渐降低。通常,我们也称为强金融属性和弱金融属性数据。
Part2.传统评分卡的优势和不足传统评分卡一直在银行信贷业务中成功实践了几十年,禁得起时间的检验。因此,我们必然要取其精华。传统评分卡的优势在于:
?泛化性强:简单模型泛化性能相对复杂模型更强。
?稳定性好:通过WOE分箱技术提高了变量的鲁棒性。
?可解释性强:线性模型,变量系数可以判断对最终结果的影响。
?小样本学习:信贷样本相对更少,利用较少样本就可以训练模型。
其劣势在于:
?特征要求强相关,这就强依赖建模人员的业务经验。
?线性特征对于挖掘的信息价值相对有限。
?通常需要分君羊建模,这将带来很多额外工作量。(可参考:《利用
样本分群提升风控模型性能》)
3
Part3.机器学习的优势和不足
随着大数据的出现,机器学习慢慢焕发出其生命力。其优势在于:
引入了非线性因素,模型拟合能力更强,能从海量的、贫瘠的数据中挖掘出数据价值。
通过集成学习可将弱模型打造出强模型,如随机森林、GBDT、XGBoost、LightGBM等。
支持更多弱特征入模,而不必像评分卡模型需要花大量时间筛选特征。
其劣势在于:
由于引入了大量的非线性因素,模型可解释性降低。
样本量较少的情况下容易产生过拟合现象。
复杂模型参数过多,调参依赖于人工经验。
Part4.大数据信贷风控模型架构我们认识到了传统评分卡和现代机器学习各自的优势和不足,自然会萌生一种朴素的想法:能不能将两者取长补短,有机结合起来?目前业内主要有三个探索方向:方向一:利用数据挖掘算法构建特征,再使用评分卡模型。
方向二:保持传统风控特征筛选的严格标准,但使用机器学习模型。方向三:大规模样本结合机器学习,保证模型的稳定和泛化。
本文借鉴了以上思路,提出一种大数据信贷风控模型架构,如图1所示。自底向上可分为六个层次:
1?原始数据域:主要包括运营商、通讯录、电商、公积金、设备、短信、自填信息、夕卜部数据等数据域(domain)。
2.数据挖掘层:结合各类数据源的特点,利用相应的数据挖掘算法提取信息。例如,利用NLP处理文本类数据;利用图算法处理社交类数据。
结构化特征:最终可用的特征往往是结构化的。同时,需做好特征数据集市管理,线上线下一致性比对等工作。
模型算法库:在掌握模型机理的前提下,选择多种合适的机器学习算法来建模。
机器学习子模型分数据域选择合适的算法,建立多个子模型。
评分卡主模型F各子模型分数作为新的特征输入评分卡模型。
1=评分卡主模型评分卡主模型
评分卡主模型
I
1
1
文本子模型
关系子模型
RFM-
礴型
外卜部子模型
其他子模型
T
▲
T
I
I
LR
XGBoost
RF
GBDT
其他
I
A
■
文本特
原创力文档


文档评论(0)