数据挖掘模型中的IV和WOE详解.docVIP

下载本文档

0
0
约9.11千字
约 16页
2019-05-12 发布于江苏
举报
版权申诉

数据挖掘模型中的IV和WOE详解.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

... ... 数据挖掘模型中的 IV 和 WOE详解标签： IVWOE 信息价值证据权重数据挖掘模型 2016-03-02 15:36 28747 人阅读评论(8) 收藏举报分类：数据挖掘模型（ 7）版权声明：本文为博主原创文章，未经博主允许不得转载。目录(?)[+] IV 的用途 IV 的全称是 Information Value ，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有 200 个候选自变量，通常情况下，不会直接把 200 个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这 200 个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。 “变量的预测能力”这个说法很笼统，很主观，非量化，在筛选变量的时候我们总不能说： “我觉得这个变量预测能力很强，所以他要进入模型” 吧？我们需要一些具体的量化指标来衡量每自变量的预测能力，并根据这些量化指标的大小，来确定哪些变量进入模型。 IV 就是这样一种指标，他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。对 IV 的直观理解从直观逻辑上大体可以这样理解“用IV 去衡量变量预测能力”这件事情：我们假设在一个分类问题中，目标变量的类别有两类： Y1，Y2 。对于一个待预测的个体 A，要判断 A 属于 Y1 还是 Y2，我们是需要一定的信息的，假设这个信息总量是 I，而这些所需要的信息，就蕴含在所有的自变量 C1， C2，C3 ，? ? ，Cn 中，那么，对于其中的一个变量 Ci 来说，其蕴含的信息越多，那么它对于判断 A 属于 Y1 还是 Y2 的贡献就越大， Ci 的信息价值就越大， Ci 的 IV 就越大，它就越应该进入到入模变量列表中。 IV 的计算前面我们从感性角度和逻辑层面对 IV 进行了解释和描述，那么回到数学层面，对于一个待评估变量，他的 IV 值究竟如何计算呢？为了介绍 IV 的计算方法，我们首先需要认识和理解另一个概念— — WOE ，因为 IV 的计算是以 WOE 为基础的。 WOE WOE 的全称是“ Weight of Evidence ”，即证据权重。 WOE 是对原始自变量的一种编码形式。要对一个变量进行 WOE 编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i 组， WOE 的计算公式如下：其中， pyi 是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说 1 的个体）占所有样本中所有响应客户的比例， pni 是这个组中未响应客户占样本中所有未响应客户的比例， #yi 是这个组中响应客户的数量， #ni 是这个组中未响应客户的数量， #yT 是样本中所有响应客户的数量， #nT 是样本中所有未响应客户的数量。从这个公式中我们可以体会到， WOE 表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。对这个公式做一个简单变换，可以得到：变换以后我们可以看出， WOE 也可以这么理解，他表示的是当前这个组中响应的客户和未响应客户的比值，和所有样本中这个比值的差异。这个差异是用这两个比值的比值，再取对数来表示的。 WOE 越大，这种差异越大，这个分组里的样本响应的可能性就越大， WOE 越小，差异越小，这个分组里的样本响应的可能性就越小。关于 WOE 编码所表示的意义，大家可以自己再好好体会一下。 IV 的计算公式有了前面的介绍，我们可以正式给出 IV 的计算公式。对于一个分组后的变量，第 i 组的 WOE 前面已经介绍过，是这样计算的：同样，对于分组 i，也会有一个对应的 IV 值，计算公式如下：有了一个变量各分组的 IV 值，我们就可以计算整个变量的 IV 值，方法很简单，就是把各分组的 IV 相加：其中， n 为变量分组个数。用实例介绍 IV 的计算和使用下面我们通过一个实例来讲解一下 IV 的使用方式。实例假设我们需要构建一个预测模型，这个模型是为了预测公司的客户集合中的每个客户对于我们的某项营销活动是否能够响应，或者说我们要预测的是客户对我们的这