- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
...
...
数据挖掘模型中的 IV 和 WOE详解
标签: IVWOE 信息价值证据权重数据挖掘模型
2016-03-02 15:36 28747 人阅读 评论(8) 收藏举报
分类:
数据挖掘模型( 7)
版权声明:本文为博主原创文章,未经博主允许不得转载。
目录(?)[+]
IV 的用途
IV 的全称是 Information Value ,中文意思是信息价值,或者信息量。
我们在用逻辑回归、 决策树等模型方法构建分类模型时, 经常需要对自变量进行筛选。 比如
我们有 200 个候选自变量,通常情况下,不会直接把 200 个变量直接放到模型中去进行拟
合训练,而是会用一些方法,从这 200 个自变量中挑选一些出来,放进模型,形成入模变
量列表。那么我们怎么去挑选入模变量呢?
挑选入模变量过程是个比较复杂的过程, 需要考虑的因素很多,比如: 变量的预测能力,变
量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变
量在业务上的可解释性(被挑战时可以解释的通) 等等。 但是,其中最主要和最直接的衡量
标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:
“我觉得这个变量预测能力很强, 所以他要进入模型” 吧?我们需要一些具体的量化指标来
衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。 IV 就
是这样一种指标, 他可以用来衡量自变量的预测能力。 类似的指标还有信息增益、 基尼系数
等等。
对 IV 的直观理解
从直观逻辑上大体可以这样理解“用IV 去衡量变量预测能力”这件事情:我们假设在一个
分类问题中,目标变量的类别有两类: Y1,Y2 。对于一个待预测的个体 A,要判断 A 属于
Y1 还是 Y2,我们是需要一定的信息的,假设这个信息总量是 I,而这些所需要的信息,就
蕴含在所有的自变量 C1, C2,C3 ,? ? ,Cn 中,那么,对于其中的一个变量 Ci 来说,其
蕴含的信息越多, 那么它对于判断 A 属于 Y1 还是 Y2 的贡献就越大, Ci 的信息价值就越大,
Ci 的 IV 就越大,它就越应该进入到入模变量列表中。
IV 的计算
前面我们从感性角度和逻辑层面对 IV 进行了解释和描述,那么回到数学层面,对于一个待
评估变量, 他的 IV 值究竟如何计算呢?为了介绍 IV 的计算方法, 我们首先需要认识和理解
另一个概念— — WOE ,因为 IV 的计算是以 WOE 为基础的。
WOE
WOE 的全称是“ Weight of Evidence ”,即证据权重。 WOE 是对原始自变量的一种编码
形式。
要对一个变量进行 WOE 编码,需要首先把这个变量进行分组处理 (也叫离散化、 分箱等等,
说的都是一个意思)。分组后,对于第i 组, WOE 的计算公式如下:
其中, pyi 是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预
测变量取值为“是”或者说 1 的个体)占所有样本中所有响应客户的比例, pni 是这个组中
未响应客户占样本中所有未响应客户的比例, #yi 是这个组中响应客户的数量, #ni 是这个
组中未响应客户的数量, #yT 是样本中所有响应客户的数量, #nT 是样本中所有未响应客
户的数量。
从这个公式中我们可以体会到, WOE 表示的实际上是“当前分组中响应客户占所有响应客
户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。
对这个公式做一个简单变换,可以得到:
变换以后我们可以看出, WOE 也可以这么理解, 他表示的是当前这个组中响应的客户和未
响应客户的比值, 和所有样本中这个比值的差异 。这个差异是用这两个比值的比值, 再取对
数来表示的。 WOE 越大,这种差异越大,这个分组里的样本响应的可能性就越大, WOE
越小,差异越小,这个分组里的样本响应的可能性就越小。
关于 WOE 编码所表示的意义,大家可以自己再好好体会一下。
IV 的计算公式
有了前面的介绍, 我们可以正式给出 IV 的计算公式。 对于一个分组后的变量, 第 i 组的 WOE
前面已经介绍过,是这样计算的:
同样,对于分组 i,也会有一个对应的 IV 值,计算公式如下:
有了一个变量各分组的 IV 值, 我们就可以计算整个变量的 IV 值,方法很简单, 就是把各分
组的 IV 相加:
其中, n 为变量分组个数。
用实例介绍 IV 的计算和使用
下面我们通过一个实例来讲解一下 IV 的使用方式。
实例
假设我们需要构建一个预测模型, 这个模型是为了预测公司的客户集合中的每个客户对于我
们的某项营销活动是否能够响应, 或者说我们要预测的是客户对我们的这
文档评论(0)