基于大数的信用评分模型.pdfVIP

下载本文档

25
0
约7.76千字
约 10页
2018-10-19 发布于浙江
举报

基于大数的信用评分模型.pdf

基于大数的信用评分模型

基于大数据的信用风险评分模型辨析作者：中国XX 银行风险管理部 ZLP 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异，总结分析大数据信用风险评分模型的优缺点，并提出了若干建议。信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。早在 20 世纪40 年代，美国有些银行就开始尝试性研究信用评分方法，用于快速处理大量信贷申请。 1956 年，工程师BillFair 和数学家EarlIsaac 共同发明了著名的FICO 评分方法。该方法基本以Logistic 回归方法为技术核心，是当前业界应用最成熟的信用风险评分模型。在20 世纪60～80 年代，随着信息技术的进步和业务的快速发展，信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。近几年来，随着大数据和互联网金融的兴起，某些新颖的机器学习算法走出了学术领域，开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance 公司为例，该公司将机器学习算法应用于信用风险评分模型中，这是大数据信用风险评分模型领域的早期探索之一，也是业界讨论热点。然而，在讨论基于大数据的信用评分模型过程中，经常见到的是出于公关需要的炒作、宣传文章，对技术方法本身的讨论较少，不利于应用方正确辨析和恰当应用大数据信用风险评分模型。本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异，总结分析大数据信用风险评分模型的优缺点，并提出了若干建议。一、基于大数据的信用风险评分模型和传统信用风险评分模型的差异分析互联网金融机构基于大数据的信用风险评分模型和传统金融机构采用的信用风险评分模型在数据来源、变量生成、模型方法、应用方式、应用目标上均存在一定差异，主要体现在以下几方面。 1.数据来源及数据特征的差异传统信用风险评分模型的数据来源主要是三大类：客户向金融机构提交的个人申请信息、金融机构内部积累的客户历史数据、人民银行征信中心等外部机构提供的数据。数据的主要特点是数据质量和信息价值密度高、维度相对单一、可验证性较差、数据采集渠道规范性较好。传统金融机构基于传统的高价值密度的数据，研发出各类信用风险评分模型，实现对客户信用风险的评价，已经成为成熟的、规范化的运行方式。大数据时代的客户信息来源更加多元化，主要包括各互联网金融机构掌控的生态体系内积累的客户信息，以及通过外部各种渠道采集的客户信息。其数据特征包括：一是数据较为稀疏。数据采集渠道的多元化和非标准化，导致客户信息缺失率较高，同一客户不同维度的信息经常不完整，最终体现为数据的稀疏性。二是价值密度相对较低。单项数据的信用评估价值密度较低，缺少传统金融机构拥有的含金量较高的征信类数据、历史违约数据。三是数据覆盖维度广。部分机构通过各种渠道积累了涉及用户行为各方面的数据，如不少机构采集了覆盖衣、食、住、行、娱乐、购物、通信等各种来源的信息。四是单变量风险区分能力弱。分析发现，尽管市场上常见的大数据机构采集了各种维度的客户行为信息，对客户总体形象的刻画更详细，但这类数据并未专注于客户信用风险，往往缺少内部征信数据、外部征信数据、个人资产评估等有强区分能力的变量。大数据机构采集的客户衣食住行、社交类等信息，在信用风险评估领域大多属于弱区分能力变量，需要汇集、整合大量信息以后才能实现区分效果的实质性提升。五是数据来源规范性不足，不少大数据采集机构通过灰色渠道采集个人隐私数据，数据可持续性不佳。 2.模型变量生成和挑选方式的差异不同的数据特征直接影响到模型变量的生成、挑选方式。传统信用风险评分模型候选变量数量较少，单一模型候选变量常在数百至数千个数量级。进入模型的变量往往在数十个数量级。模型变量数量较少，客观上使得数据可以经过多番清洗，清洗后的数据质量相对较好;同样由于变量较少，传统金融机构往往在变量挑选过程中开展多轮定量和定性分析。在筛选模型变量的过程中，除了参考变量的区分能力等定量维度，往往还需要参考机构内部业务专家的意见。大数据时代，由于原始数据体量较大，通过变量本身衍生、变量之间衍生后产生更多候选变量。在单个模型内，相近的候选变量可多达数百乃至上万个。由于缺乏专家团队支持，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于大数的信用评分模型.pdfVIP