7.第8章数据挖掘模型评估.pptVIP

下载本文档

3
0
约3.38千字
约 42页
2017-04-23 发布于北京
举报
版权申诉

7.第8章数据挖掘模型评估.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;*;*;在k—折交叉确认（k—fold cross—validation）中，初试数据被划分成k个互不相交的子集或“折”，每个折的大小大致相等。训练和测试k次。在第i次迭代，第i折用作测试集，其余的子集都用于训练分类法。准确率估计是k次迭代正确分类数除以初始数据中的样本总数。;*;*;假定你已经训练了一个分类法，将医疗数据分类为“cancer”或“non_cancer”。90%的准确率使得该分类法看上去相当准确，但是如果实际只有3—4%的训练样本是“cancer”会怎么样？显然，90%的准确率是不能接受的——该分类法只能正确的标记“non_cancer”（称作负样本）样本。但我们希望评估该分类能够识别“cancer”（称作正样本）的情况。;;其中，t_pos是真正样本（被正确地按此分类的“cancer”样本）数，pos是正（“cancer”）样本数， t_neg是真负样本（被正确地按此分类的“non_cancer”样本）数，neg是负（ “non_cancer”）样本数，而f_pos假正样本（被错误地标记为“cancer”的“non_cancer”样本）数;;传统评估分类预测模型时，通常使用的是“准确度”。它的功能是评估模型分类实物是否正确。准确度越高模型就越好。但事实上，这样评估出来的模型并不是最好的。;例：某家银行发行现金卡，风险控管部门主管决定建立DM模型，利用申请人申请当时的所填的资料，建立违约预测模型，来作为核发现金卡以及给予额度的标准。该银行邀请两家DM公司来设计模型，评比的标准是根据模型的“准确度”。根据此标准，A公司所建模型的准确度92%，B公司的准确度是68%。银行和A公司签约。;利用A公司的模型后，结果发现里面只有一条规则，那就是“所有的人都不会违约”。为什么？ A：所有的人都不会违约，因此它错误的只有8%的违约分类错误（违约误判为不违约），因此准确率是92%。 B：在根据评分由高至低筛选出来前40%的名单中，可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户，因此准确率只有68%。哪一家的模型更好呢？由上可以发现，不能使用准确率来评判模型的优劣。;原因在于两类错误，忽略了“错误不等价”。如果把一个“会违约的人判断成不会违约”，这家银行损失20～30万元的现金卡卡金，但是如果将一个“不会违约的人错判成违约”，只是划分了一些审查成本以及可能因为保守给予额度而造成的机会成本损失。因此两种误判所造成的效益影响是不等价的。;所谓小概率事件是发生概率小，而且一定是能够为企业界带来高度获利或严重损失的事件。由于小概率事件发生概率很小，如果针对所有客户采取行动，就会形成浪费，因此，需要利用预测的技术将小概率事件找出来。那么，只针对预测的小概率事件采取行动就会避免浪费。 DM的价值就在于能够利用历史资料找出“小概率事件”。;;H0 为真;对于DM来说，通常第二类错误的损失或收益要比第一类高。因此，我们需要确定哪一个状况是我们所关心的小概率事件。把对这个事件的误判会造成极大损失的情况，作为第二类错误。例，把一个好账的人当作呆账是第一类错误，把一个呆账的人当作好账是第二类错误。;预测值;*;Response rate =预测会违约且实际会违约/所有预测会违约 =66/(66+28)=70.21% 预测模型回应率的高低须和总体回应率比较：总体response rate =总体实际会违约/总体=(66+185)/(66+185+28+721)=25.1%;可以发现，原始回应率为25.1%，运用数据挖掘模型提升为70.21%，因此回应率提升了2.8倍。回应率讲究的是模型“宁缺勿滥”的能力。回应率高并不代表一定是好模型，因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客，结果回应率是100%，但是却漏掉了大多数会买产品的顾客，因此，还得参考“反查率”这个指标。;Recall =预测会违约且实际违约/所有实际会违约 =66/(66+185)=26.29% 它的意义在于：预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高，表明犯第二类错误的可能性越小，那么模型越好。;完美的预测模型反查率是100%，但是反查率与回应率是互相矛盾的。 recall=67/(67+184)66/(66+185) Response rate=67/(67+38)66/(66+28);Range reduce =预测会违约/总体=(66+28)/(66+28+721+185) =9.4% 间距缩减代表的是根据模型执行活动时的成本，当如果名单量没有有效缩减时，执行的总成本会很高，因此间距缩减越低越好。 ;;很少有模型同时能够满足上述三个指标的要求，当回应率很高时，一定是筛选高概率族群，因此