基于金融企业内部数据反欺诈特征、规则和模型.PDF

基于金融企业内部数据反欺诈特征、规则和模型.PDF

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于金融企业内部数据的反欺诈特征、规则与模型 唐亘猛犸反欺诈数据分析总监 在互联网金融反欺诈领域,通过搭建模型,在自身已有的历史数据中挖掘出反欺 诈规则或者评分是非常重要而又十分有效的手段。为了能最大限度地发挥数据的价值, 在反欺诈实践中,整个过程可以从宏观上分为四步 :问题定义、明确模型目标、挖掘 数据价值以及线上预测。 在这四步中,问题定义是从业务的角度来考虑反欺诈的范围和目标 ;线上预测则 涉及大量的实时计算,常常需要一个强大的流式计算引擎以及建立在这基础上的规则 系统。这两个步骤与数据挖掘的关系不大,并不是这篇文章的讨论重点。剩下的两步 是我们关注的焦点,事实上,这两步又可以被细分为 :欺诈定义、数据准备、特征提 取、模型搭建四步。本文将结合猛犸反欺诈在某客户的反欺诈建模实践,详细讨论这 四个步骤。 欺诈定义 (定义Y) 为了进行反欺诈,首先必须明确欺诈的定义。虽然在字面上,欺诈是很好理解的, 但从数据的角度来讲,欺诈却是很难定义的。这是因为从数据的表象上来看,欺诈和 信用违约十分相似,都表现为逾期不还款。但显然这两者有巨大的差异 :信用违约是 没有还款能力,而欺诈是没有还款意愿。 从建模的角度来讲,模型总是假设建模对象有相似的行为模式,而欺诈和信用违 约并不符合这个假设,如果强行将它们混在一起建模,效果一定不会好。因此,为了 保证反欺诈建模的效果,首先需要明确欺诈的定义,从逾期的表象中将欺诈筛选出来。 但由于意愿和能力是人的内在属性,是很难被观察和量化定义的。因此,我们需 要尽量地借助外在的表象和人工干预去逼近这个内在。在互联网金融领域,根据业务 和产品的不同,通常会依次采用如下的5 种方法来定义欺诈 : 1. 逾期超过 T 天。这是最直观也是最简单的定义,这个定义中的 T 即可以通过滚 动率等量化的手段来预估,也可以根据业务经验来确定,比如在互联网金融行 业通常将T 定为180 天。 2. 首期不还款。首期不还款指的是从第一期开始,客户就没有还过款。在互联网 金融领域,通常会在在逾期超过 T 天的基础上加上首期不还款这个条件来进一 步筛选欺诈。 3. 首期失联。当客户发生首期逾期后,互联网金融企业通常会通过电话联系客户。 当联系失败或者客户明确表示不还款时,则定义客户为首期失联。 4. 回访失踪。在客户发生逾期后,有的互联网公司会通过客户提供的地址实地回 访客户,如果找不到客户,则定义客户为回访失踪。 5. 权威部门确认。客户是否欺诈还可以通过权威部门来确认,这也是最严格的有 关欺诈的定义。 在实际的应用中,不同的企业会将上述的 5 种方法进行组合,得到各自的欺诈定 义。比如有的企业会使用方法 1+方法2,即逾期超过T 天且首期不还款为欺诈;而有 的企业会使用方法 1+方法 2+方法 3 来定义欺诈,即逾期超过T 天且首期不还款且首 期失联为欺诈。 事实上,可以将上面的 5 项方法细分为三类,一类是还款数据相关的方法,也就 是方法1 和方法2 ;第二类是人工干预的方法,也就是方法3 和方法4 ;第三类是外部 干预的方法,也就是方法5。 由于搭建模型具有一定的滞后性,人工干预和外部干预的方法往往在建模时已经 失效了 (除非,数据里有明确的人工干预结果记录),因此通常会使用与还款数据相 关的方法来定义欺诈,也就是说方法1+方法2。具体的如下图所示 : 当然,这样的定义会有一定的误差。一方面它会将一些信用违约误判为欺诈,另 一方面,它也会“漏掉”一些欺诈,比如有的欺诈者为了获取更大的额度,会“假装”先期 还款几次。但整体来说,这两种情况所占的比例都不大,可以认为这样的定义是合理 的。 数据准备 对于本次进行反欺诈实践的公司,它的数据结构与银行的十分相似。从数据内容 上来看,它可以被分为三类 :个人信息类数据、交易类数据以及产品信息类数据。 • 个人信息类数据既包含基本的个人信息,比如身份、学历、职业以及居住地, 也包含个人征信报告相关的信息,比如个人征信报告的查询次数。 • 交易类数据又可以细分为三类 :申请与业务信息、特殊交易信息以及担保信息。 • 产品信息类数据主要包含产品的额度、产品的期限以及是否有抵押品等信息。 对于这些原始数据,需要对其进行初

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档