数据挖掘模型中的IV和WOE详解.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
... ... 数据挖掘模型中的 IV 和 WOE详解 标签: IVWOE 信息价值证据权重数据挖掘模型 2016-03-02 15:36 28747 人阅读 评论(8) 收藏举报 分类: 数据挖掘模型( 7) 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] IV 的用途 IV 的全称是 Information Value ,中文意思是信息价值,或者信息量。 我们在用逻辑回归、 决策树等模型方法构建分类模型时, 经常需要对自变量进行筛选。 比如 我们有 200 个候选自变量,通常情况下,不会直接把 200 个变量直接放到模型中去进行拟 合训练,而是会用一些方法,从这 200 个自变量中挑选一些出来,放进模型,形成入模变 量列表。那么我们怎么去挑选入模变量呢? 挑选入模变量过程是个比较复杂的过程, 需要考虑的因素很多,比如: 变量的预测能力,变 量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变 量在业务上的可解释性(被挑战时可以解释的通) 等等。 但是,其中最主要和最直接的衡量 标准是变量的预测能力。 “变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说: “我觉得这个变量预测能力很强, 所以他要进入模型” 吧?我们需要一些具体的量化指标来 衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。 IV 就 是这样一种指标, 他可以用来衡量自变量的预测能力。 类似的指标还有信息增益、 基尼系数 等等。 对 IV 的直观理解 从直观逻辑上大体可以这样理解“用IV 去衡量变量预测能力”这件事情:我们假设在一个 分类问题中,目标变量的类别有两类: Y1,Y2 。对于一个待预测的个体 A,要判断 A 属于 Y1 还是 Y2,我们是需要一定的信息的,假设这个信息总量是 I,而这些所需要的信息,就 蕴含在所有的自变量 C1, C2,C3 ,? ? ,Cn 中,那么,对于其中的一个变量 Ci 来说,其 蕴含的信息越多, 那么它对于判断 A 属于 Y1 还是 Y2 的贡献就越大, Ci 的信息价值就越大, Ci 的 IV 就越大,它就越应该进入到入模变量列表中。 IV 的计算 前面我们从感性角度和逻辑层面对 IV 进行了解释和描述,那么回到数学层面,对于一个待 评估变量, 他的 IV 值究竟如何计算呢?为了介绍 IV 的计算方法, 我们首先需要认识和理解 另一个概念— — WOE ,因为 IV 的计算是以 WOE 为基础的。 WOE WOE 的全称是“ Weight of Evidence ”,即证据权重。 WOE 是对原始自变量的一种编码 形式。 要对一个变量进行 WOE 编码,需要首先把这个变量进行分组处理 (也叫离散化、 分箱等等, 说的都是一个意思)。分组后,对于第i 组, WOE 的计算公式如下: 其中, pyi 是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预 测变量取值为“是”或者说 1 的个体)占所有样本中所有响应客户的比例, pni 是这个组中 未响应客户占样本中所有未响应客户的比例, #yi 是这个组中响应客户的数量, #ni 是这个 组中未响应客户的数量, #yT 是样本中所有响应客户的数量, #nT 是样本中所有未响应客 户的数量。 从这个公式中我们可以体会到, WOE 表示的实际上是“当前分组中响应客户占所有响应客 户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。 对这个公式做一个简单变换,可以得到: 变换以后我们可以看出, WOE 也可以这么理解, 他表示的是当前这个组中响应的客户和未 响应客户的比值, 和所有样本中这个比值的差异 。这个差异是用这两个比值的比值, 再取对 数来表示的。 WOE 越大,这种差异越大,这个分组里的样本响应的可能性就越大, WOE 越小,差异越小,这个分组里的样本响应的可能性就越小。 关于 WOE 编码所表示的意义,大家可以自己再好好体会一下。 IV 的计算公式 有了前面的介绍, 我们可以正式给出 IV 的计算公式。 对于一个分组后的变量, 第 i 组的 WOE 前面已经介绍过,是这样计算的: 同样,对于分组 i,也会有一个对应的 IV 值,计算公式如下: 有了一个变量各分组的 IV 值, 我们就可以计算整个变量的 IV 值,方法很简单, 就是把各分 组的 IV 相加: 其中, n 为变量分组个数。 用实例介绍 IV 的计算和使用 下面我们通过一个实例来讲解一下 IV 的使用方式。 实例 假设我们需要构建一个预测模型, 这个模型是为了预测公司的客户集合中的每个客户对于我 们的某项营销活动是否能够响应, 或者说我们要预测的是客户对我们的这

文档评论(0)

5566www + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档