智能风控系统设计与实践.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能风控系统设计与实践 导读 在主流互联网产品中,比如搜索和推荐的系统,为了挖掘用户潜在购买需求,缩短用户到商品或信息的距离,提高用户的使用体验,都需要使用大量的特征来刻画用户的行为。在信息安全领域,建立在人工智能技术之上的策略引擎已经深入到了风控产品功能的方方面面,相应的,每一个策略系统都离不开大量的特征,来支撑模型算法或人工规则对请求的精准响应,因此特征系统成为了支持线上风控引擎的重要支柱。 本文以智能风控在线特征系统为原型,重点从线上数据从生产到特征物料提取、计算、存取角度介绍一些实践中的通用技术点,以解决在线特征系统在高并发情形下面临的问题和挑战。 特征系统的基本概念 1. 特征定义 什么是特征?特征是一个客体或一组客体特性的抽象结果。特征是用来描述概念的。任一客体或一组客体都具有众多特性,我们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。因此我们可以理解特征是观察事物的一个角度,它可以是“横看成岭侧成峰”。特征它是一个抽象概念, 为了使抽象的概念可落地、可存储、可量化,结合了我们的业务特性对特征进行了又一次定义:特征 = 维度+? 时间窗口 + 计算函数。举个例子 :“过去15分钟同用户多iP的数量”,那么最终的实际计算结果为特征值,过去15分钟为时间窗口,用户标识为维度,计算函数是针对iP进行去重计算的逻辑。 2. 时间窗口类型 在信息安全领域,黑产为了追求收益,一定会最大程度的将成本最小化。为了保证成本的可控,黑产在攻击时采取的策略是能简单决不复杂,能机器绝不人工,总之就一个目标,完成利益的收割,因此他们一定会利用仅有的资源做一些高频的动作。那么以什么样的周期或者时间窗口来统计这些高频率动作更能反应出实际问题呢?我们在长期的风控治理中结合业界的划分标准归纳了以下四种: a)??自然窗口期:时间窗口的起点是固定的,但终止时间点一直在向前滚动,比如用户当天累计发帖数量或者消耗类特征的存储。 b)??固定窗口期:时间窗口的起止时间点是固定的,比如每天的某一时间段用户发送消息数量,主要针对特定时间用户的处罚、灌水的限制等。 c)??滑动窗口期:时间窗口的长度是固定的,但起止时间点一直在向前滚动,主要针对风控事中检测,常用来判读信息准入,例如风控发帖时间点前15分钟的计数。 d)Session窗口期:以第一个事件开始,依次向后滚动计算,直到超出一个session窗口期时间重新开始,主要针对控频,UV统计等。 图1 如图1所示,相同的维度,相同的计算函数,不同的时间窗口类型得到的特征值及其反应的业务含义都会有一定的差别。 3. 计算函数类型 特征的计算有繁有简,复杂多变。回到业务需求,我们的目的是通过特征生产系统来简化开发工作量,而非完全取代特征开发。因此我们选择一部分常见的函数计算类型,实现自动化生产。对于更复杂的特征计算,提供了特征更新接口支持第三方应用的对接。总结常见的计算类型主要有以下几种。 a)?求和(SUM),对窗口期内的数据进行求和; b)?计数(COUNT),对窗口期内的数据进行计数统计; c)?去重计数(COUNT_DISTINCT),对窗口期内的指定字段去除重复量后统计; d)?明细(LIST),返回窗口期内最新的前5000条明细数据; e)?最大值(MAX),计算出窗口期内的最大值; f)最小值(MIN),计算出窗口期内的最小值; g)?平均数(AVG),对窗口期内的数进行均值计算。 早期特征系统技术实现方案 早期特征系统主要以离线的方式为主,在数据仓库中特征表主要依靠数据分析师、算法工程师以及策略运营等同学建立特征需求由数据工程师排期开发,同时数据工程师还需要开发ETL调度任务,每天定时将数据同步到相应的Hbase表中,通过统一的服务接口为线上风控策略提供支持。 图2 早期技术架构如图2所示,但是随着业务量的不断扩张,现有的技术架构已不能满足日益增长的业务需求,主要体现在以下两点: a)?无论是业务的创新速度还是对数据需求变化的速度都要远远超过数据工程师对特征开发的速度; b)?因为风控存在对抗性,因此用户近几分钟、近几秒的行为信息往往比很多离线特征更具有价值,在线实时特征必然会在策略系统中发挥越来越重要的作用。 在线实时特征系统设计与实践,对从整体功能上来讲,在线实时特征系统的设计主要考虑以下几个方面: a)?数据大,风控系统每天产生日志量3TB左右,同时特征系统还会接入发布、浏览、登录、注册、聊天等数据。很多情况下同一份数据需要提取不同维度、不同指标的特征,待处理的数量还会倍增。因此每天需要解析及计算的数量巨大。 b)?时效性高,面对庞大的数据量级,数据的处理实效性要求是秒级别,同时不能产生数据堆积的情况。 c)?并发大,风控策略系统面向用户端,服务端峰值QPS超过35万,每日调用量超过

文档评论(0)

+ 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档