课师宝: 大数据风控的局限性.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
你好,我是薛洪言,欢迎来到《金融科技转型30讲》。前面我们讲了很多有关大数据风控的优点,这节课我们着重讲一讲大数据风控的局限性。 从历史上看,每一项新技术在解决一种现有问题的同时,也都会产生一种或多种新的问题。所以技术越发达,人类面临的未知领域越多,需要解决的新的难题也越多,某种意义上,这可能也是科技进步的代价。 数据质量问题 说到大数据风控,它的局限性主要体现在以下几个方面。第一是数据的质量,数据的真实性和完整性问题。举个例子,我们知道,用户都是线上线下“两张皮”的,比如很多的社交数据、用户的分享、社交信息的分享根本不能反映真实的状况,它存在人为的“注水”,为了想在线上获得大家的一个关注,用户网上的很多的言论可能是一种情绪化的反应。互联网上的一些数据有时候并不能真实反映用户的情况。 我们如果利用这样的信息做模型、做判断,很有可能导致我们的模型结论是存疑的。比如说我们会用到很多交易数据,现在互联网上存在着很严重的刷单现象,刷数据、刷流量、刷粉丝、刷活跃度等等,很多数据可能是刷出来的,依靠这样的数据做的模型,质量是存在问题的。还有竞争对手可能会“捣乱”,比如说在一些黑名单共享的案例中,有些机构会故意把一些好用户放进去,这些用户相当于是变相地进了黑名单,在其他平台就借不到钱了,这样这家机构就可以持续地服务用户。 数据是模型的原材料,它是输入项,“垃圾进、垃圾出”,如果数据的真实性、数据质量是有问题的,就别指望模型能发挥什么效果,这也是央行征信在数据的拓展上一直比较谨慎和保守的原因。也正是因为央行的征信非常谨慎保守,所以央行征信数据的含金量才这么高。同样的,我们看到很多大数据风控其实在数据质量、数据来源、数据的真实性上,可能存在一些局限性。 模型缺乏可解释性 第二个问题就是模型缺乏可解释性,因为金融的场景非常复杂,如果风控结果是黑箱进、黑箱出,很多时候,风控人员其实很难把控和估计。 传统的风控模型是一种线性的模型,是一种逻辑的回归,它的优点是高度结构化,并具备可解释性。缺点是高度依赖专家经验,人的经验是有局限性的,甚至可能是错的。所以,传统的风控是有局限的。 大数据风控基于机器学习的模型,优点是可以自我适应、自我学习,可以处理非线性的数据,但它的缺点是模型结构太复杂,就像一个黑匣子,可解释性非常差。举个简单的例子,如果大数据风控模型给一个用户的信用评分评了500分,我们可能只知道结果是500分,但是无从判断500分是怎么来的? 模型的不可解释性,在特定的场景下会成为大数据风控模型应用的障碍。比如,如果是在小额的借款场景里,可能还无所谓,几百块钱、上千块钱或者一两万块钱。但如果是一些大额的借款场景,面对不可解释的大数据风控结果,风控人员心里面其实是没底的。另一方面,我们知道,机器学习擅长发现的是数据之间的相关关系,而非因果关系,所以这也需要专家设置一定的知识库,避免一些虚假相关性的发生。 不善于预测黑天鹅因素 第三个局限性是大数据风控模型不善于预测黑天鹅因素,大数据模型本质上是对历史数据和过往现象结论的模拟,它是抓大放小的,必然会忽视异常点、忽视黑天鹅的因素。这些异常点在金融业往往会对应着一些系统性风险。 从AI的技术层面来看,机器学习和自然语言处理的技术经常会在黑天鹅事件发生时预测失效,这类事情在历史中不常出现,人工智能没有遇到过,也无法从历史数据中学习如何去应对黑天鹅事件,所以它就不知道该怎样去发现和应对这样的一个模式。 英国的金融服务管理局曾经强调指出,对于复杂的技术和模型的依赖性越强,系统失效导致业务中断的风险就越大,从而会大幅提升全部系统失效导致市场闪崩的可能性。这就是说,非但利用大数据模型无法预测黑天鹅因素,还有可能会导致一些风险事件的发生。 没有经历过行业周期的检验 第四个局限性是大数据风控模型没有经历过周期的检验。从过往几年的经验来看,大数据风控模型在实践中是行之有效的,但因为它没有经历过行业周期的检验,我们无从得知它是真有效还是假有效。比如,借款人一直在按期还款,究竟是借款人的信用好,还是因为借钱太容易了,他可以借新还旧呢?这个是无法判断的。没有经历过周期的检验,无法知道借款人究竟是信用好,还是因为借新还旧,好比“只有在退潮的时候才知道谁是裸泳者”。 我们知道,互联网借款人存在广泛的以贷还贷的现象,当借款人以贷还贷的时候,多头借贷是因,正常还款是果。我们假定大数据风控模型无法准确掌握多头借贷的数据,而是通过用户的学历、消费数据、社交信息等变量做信用评估。从结果上看,借款人的还款率越良好、不良率很低,我们便认为模型是有效的。一旦因为监管的外部因素导致贷款的给量快速下降,借款人以贷还贷的链条断裂以后,优质用户会秒变不良用户让人措手不及。这在历史上也发生过,2017年12月,现金贷新规发布以后,整个行业的信贷供给

文档评论(0)

课师宝 + 关注
官方认证
文档贡献者

课师宝-企业在线学习平台

认证主体深圳市人人师网络科技有限公司
IP属地广东
统一社会信用代码/组织机构代码
9144030032671840XX

1亿VIP精品文档

相关文档