- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
— PAGE \* Arabic 1 —
基于大数据的信用评分模型
基于大数据的信用风险评分模型辨析 :中国XX银行风险管理部 ZLP 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。 信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。早在20世纪40年代,美国有些银行就开始尝试性研究信用评分方法,用于快速处理大量信贷申请。 1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法。该方法基本以Logistic回归方法为技术核心,是当前业界应用最成熟的信用风险评分模型。在20世纪60~80年代,随着信息技术的进步和业务的快速发展,信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。 近几年来,随着大数据和互联网金融的兴起,某些新颖的机器学习算法走出了学术领域,开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance公司为例,该公司将机器学习算法应用于信用风险评分模型中,这是大数据信用风险评分模型领域的早期探索之一,也是业界讨论热点。然而,在讨论基于大数据的信用评分模型过程中,经常见到的是出于公关需要的炒作、宣传文章,对技术方法本身的讨论较少,不利于应用方正确辨析和恰当应用大数据信用风险评分模型。 本文通过比对、分析传统信用风险评分模型和基于大数据的信用风险评分模型的差异,总结分析大数据信用风险评分模型的优缺点,并提出了若干建议。 一、基于大数据的信用风险评分模型和传统信用风险评分模型的差异分析 互联网金融机构基于大数据的信用风险评分模型和传统金融机构采用的信用风险评分模型在数据来源、变量生成、模型方法、应用方式、应用目标上均存在一定差异,主要体现在以下几方面。 1.数据来源及数据特征的差异 传统信用风险评分模型的数据来源主要是三大类:客户向金融机构提交的个人申请信息、金融机构内部积累的客户历史数据、人民银行征信中心等外部机构提供的数据。 数据的主要特点是数据质量和信息价值密度高、维度相对单一、可验证性较差、数据采集渠道规范性较好。传统金融机构基于传统的高价值密度的数据,研发出各类信用风险评分模型,实现对客户信用风险的评价,已经成为成熟的、规范化的运行方式。 大数据时代的客户信息来源更加多元化,主要包括各互联网金融机构掌控的生态体系内积累的客户信息,以及通过外部各种渠道采集的客户信息。其数据特征包括: 一是数据较为稀疏。数据采集渠道的多元化和非标准化,导致客户信息缺失率较高,同一客户不同维度的信息经常不完整,最终体现为数据的稀疏性。 二是价值密度相对较低。单项数据的信用评估价值密度较低,缺少传统金融机构拥有的含金量较高的征信类数据、历史违约数据。 三是数据覆盖维度广。部分机构通过各种渠道积累了涉及用户行为各方面的数据,如不少机构采集了覆盖衣、食、住、行、娱乐、购物、通信等各种来源的信息。 四是单变量风险区分能力弱。分析发现,尽管市场上常见的大数据机构采集了各种维度的客户行为信息,对客户总体形象的刻画更详细,但这类数据并未专注于客户信用风险,往往缺少内部征信数据、外部征信数据、个人资产评估等有强区分能力的变量。大数据机构采集的客户衣食住行、社交类等信息, 在信用风险评估领域大多属于弱区分能力变量,需要汇集、整合大量信息以后才能实现区分效果的实质性提升。 五是数据来源规范性不足,不少大数据采集机构通过灰色渠道采集个人隐私数据,数据可持续性不佳。 2.模型变量生成和挑选方式的差异 不同的数据特征直接影响到模型变量的生成、挑选方式。传统信用风险评分模型候选变量数量较少,单一模型候选变量常在数百至数千个数量级。进入模型的变量往往在数十个数量级。模型变量数量较少,客观上使得数据可以经过多番清洗,清洗后的数据质量相对较好;同样由于变量较少,传统金融机构往往在变量挑选过程中开展多轮定量和定性分析。在筛选模型变量的过程中,除了参考变量的区分能力等定量维度,往往还需要参考机构内部业务专家的意见。 大数据时代,由于原始数据体量较大,通过变量本身衍生、变量之间衍生后产生更多候选变量。在单个模型内,相近的候选变量可多达数百乃至上万个。由于缺乏专家团队支持,通常采用挑选规则等方式自动化挑选候选变量,人工干预和专家审核较少。同时,由于模型变量数量庞大和数据质量较差,容易出现模型变量未经严格数据清洗程
您可能关注的文档
最近下载
- 第6课 推动形成全面对外开放新局面.pptx VIP
- 电规总院解析2018中国能源发展情况.PDF
- 2023届高考模拟作文“《山月记》我深怕自己并非美玉”导写及范文.docx VIP
- 冰淇淋本部冷冻饮品生产工艺作业指.pdf VIP
- GB_T 14598.1871-2024 量度继电器和保护装置 第187-1部分:差动保护的功能要求 电动机、发电机和变压器比率制动差动保护和差动速断保护.pdf VIP
- 七年级数学动点题50道.doc VIP
- “多测合一”收费指导标准(示范文本) .pdf VIP
- 煤矿采掘失调原因分析及对策探讨.doc VIP
- jtge20-2011公路工程沥青及沥青混合料试验规程.pdf VIP
- 中国的文人与士大夫文化传统.pptx VIP
原创力文档


文档评论(0)