数据挖掘数据挖掘模型评估PPT.pptVIP

下载本文档

18
0
约4.36千字
约 80页
2018-01-26 发布于江苏
举报
版权申诉

数据挖掘数据挖掘模型评估PPT.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘数据挖掘模型评估PPT

数据挖掘模型评估;一、评估分类法的准确率;*;K—折交叉确认;2、提高分类法的准确率;;其中，t_pos是真正样本（被正确地按此分类的“cancer”样本）数，pos是正（“cancer”）样本数， t_neg是真负样本（被正确地按此分类的“non_cancer”样本）数，neg是负（ “non_cancer”）样本数，而f_pos假正样本（被错误地标记为“cancer”的“non_cancer”样本）数;;二、数据挖掘模型评估的错误观念;例：某家银行发行现金卡，风险控管部门主管决定建立DM模型，利用申请人申请当时的所填的资料，建立违约预测模型，来作为核发现金卡以及给予额度的标准。该银行邀请两家DM公司来设计模型，评比的标准是根据模型的“准确度”。根据此标准，A公司所建模型的准确度92%，B公司的准确度是68%。银行和A公司签约。;利用A公司的模型后，结果发现里面只有一条规则，那就是“所有的人都不会违约”。为什么？ A：所有的人都不会违约，因此它错误的只有8%的违约分类错误（违约误判为不违约），因此准确率是92%。 B：在根据评分由高至低筛选出来前40%的名单中，可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户，因此准确率只有68%。哪一家的模型更好呢？由上可以发现，不能使用准确率来评判模型的优劣。;为什么会出现这样的结果？;所谓小概率事件是发生概率小，而且一定是能够为企业界带来高度获利或严重损失的事件。由于小概率事件发生概率很小，如果针对所有客户采取行动，就会形成浪费，因此，需要利用预测的技术将小概率事件找出来。那么，只针对预测的小概率事件采取行动就会避免浪费。 DM的价值就在于能够利用历史资料找出“小概率事件”。;;H0 为真;对于DM来说，通常第二类错误的损失或收益要比第一类高。因此，我们需要确定哪一个状况是我们所关心的小概率事件。把对这个事件的误判会造成极大损失的情况，作为第二类错误。例，把一个好账的人当作呆账是第一类错误，把一个呆账的人当作好账是第二类错误。;预测值;该如何使用分类矩阵的信息呢？;Response rate =预测会违约且实际会违约/所有预测会违约 =66/(66+28)=70.21% 预测模型回应率的高低须和总体回应率比较：总体response rate =总体实际会违约/总体=(66+185)/(66+185+28+721)=25.1%;可以发现，原始回应率为25.1%，运用数据挖掘模型提升为70.21%，因此回应率提升了2.8倍。回应率讲究的是模型“宁缺勿滥”的能力。回应率高并不代表一定是好模型，因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客，结果回应率是100%，但是却漏掉了大多数会买产品的顾客，因此，还得参考“反查率”这个指标。;Recall =预测会违约且实际违约/所有实际会违约 =66/(66+185)=26.29% 它的意义在于：预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高，表明犯第二类错误的可能性越小，那么模型越好。;完美的预测模型反查率是100%，但是反查率与回应率是互相矛盾的。 recall=67/(67+184)66/(66+185) Response rate=67/(67+38)66/(66+28);Range reduce =预测会违约/总体=(66+28)/(66+28+721+185) =9.4% 间距缩减代表的是根据模型执行活动时的成本，当如果名单量没有有效缩减时，执行的总成本会很高，因此间距缩减越低越好。 ;;注意：;四、增益图（灵敏性分析）;AUC(area under curve)：模型曲线下面的阴影面积与完美模型曲线下面阴影面积的比值。 AUC越接近于1，表示模型的预测能力越高。吉尼系数=模型曲线与45度线之间的面积/完美模型曲线与45度线之间的面积基尼系数？吉尼系数越接近1，表示模型的预测能力越高。;AUC与Gini系数对应的模型分辨能力;五、收益图;上述两个模型都没有包含整个公司的固定成本，不管成功案例多、少，都必须付出的成本。收益图:首先在成本获利参数的输入对话框中，要输入：总体（？）固定成本（？）单位成本（？）每个收益（？）：每个小概率事件发生时所得到的获利或是减少的损失。;1、回应模型;直效行销设定：总体：50000；固定成本：200000；单位成本：250；每个收益：1000;2、损失模型;信用评等模型设定：总体：50000；固定成本：200,000；单位成本：—6,000；每个收益：—20,000;六、散布图;*;七、注意（聚类和关联规则的评估）;至于关联规则，通常来说关联规则也是无监督学习，因为它的项目（例如，产品组合）过多，因此，每个选项本身就