- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘数据挖掘模型评估PPT
数据挖掘模型评估;一、评估分类法的准确率;*;K—折交叉确认;2、提高分类法的准确率;;其中,t_pos是真正样本(被正确地按此分类的“cancer”样本)数,pos是正(“cancer”)样本数,
t_neg是真负样本(被正确地按此分类的“non_cancer”样本)数,neg是负( “non_cancer”)样本数,
而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数;;二、数据挖掘模型评估的错误观念;例:某家银行发行现金卡,风险控管部门主管决定建立DM模型,利用申请人申请当时的所填的资料,建立违约预测模型,来作为核发现金卡以及给予额度的标准。
该银行邀请两家DM公司来设计模型,评比的标准是根据模型的“准确度”。
根据此标准,A公司所建模型的准确度92%,B公司的准确度是68%。
银行和A公司签约。;利用A公司的模型后,结果发现里面只有一条规则,那就是“所有的人都不会违约”。
为什么?
A:所有的人都不会违约,因此它错误的只有8%的违约分类错误(违约误判为不违约),因此准确率是92%。
B:在根据评分由高至低筛选出来前40%的名单中,可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户,因此准确率只有68%。
哪一家的模型更好呢?
由上可以发现,不能使用准确率来评判模型的优劣。;为什么会出现这样的结果?;所谓小概率事件是发生概率小,而且一定是能够为企业界带来高度获利或严重损失的事件。
由于小概率事件发生概率很小,如果针对所有客户采取行动,就会形成浪费,因此,需要利用预测的技术将小概率事件找出来。那么,只针对预测的小概率事件采取行动就会避免浪费。
DM的价值就在于能够利用历史资料找出“小概率事件”。;;H0 为真;对于DM来说,通常第二类错误的损失或收益要比第一类高。
因此,我们需要确定哪一个状况是我们所关心的小概率事件。
把对这个事件的误判会造成极大损失的情况,作为第二类错误。
例,把一个好账的人当作呆账是第一类错误,把一个呆账的人当作好账是第二类错误。;预测值;该如何使用分类矩阵的信息呢?;Response rate
=预测会违约且实际会违约/所有预测会违约
=66/(66+28)=70.21%
预测模型回应率的高低须和总体回应率比较:
总体response rate
=总体实际会违约/总体=(66+185)/(66+185+28+721)=25.1%;可以发现,原始回应率为25.1%,运用数据挖掘模型提升为70.21%,因此回应率提升了2.8倍。
回应率讲究的是模型“宁缺勿滥”的能力。
回应率高并不代表一定是好模型,因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客,结果回应率是100%,但是却漏掉了大多数会买产品的顾客,因此,还得参考“反查率”这个指标。;Recall
=预测会违约且实际违约/所有实际会违约
=66/(66+185)=26.29%
它的意义在于:预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高,表明犯第二类错误的可能性越小,那么模型越好。;完美的预测模型反查率是100%,但是反查率与回应率是互相矛盾的。
recall=67/(67+184)66/(66+185)
Response rate=67/(67+38)66/(66+28);Range reduce
=预测会违约/总体=(66+28)/(66+28+721+185)
=9.4%
间距缩减代表的是根据模型执行活动时的成本,当如果名单量没有有效缩减时,执行的总成本会很高,因此间距缩减越低越好。
;;注意:;四、增益图(灵敏性分析);AUC(area under curve):模型曲线下面的阴影面积与完美模型曲线下面阴影面积的比值。
AUC越接近于1,表示模型的预测能力越高。
吉尼系数=模型曲线与45度线之间的面积/完美模型曲线与45度线之间的面积
基尼系数?
吉尼系数越接近1,表示模型的预测能力越高。;AUC与Gini系数对应的模型分辨能力;五、收益图;上述两个模型都没有包含整个公司的固定成本,不管成功案例多、少,都必须付出的成本。
收益图:首先在成本获利参数的输入对话框中,要输入:
总体(?)
固定成本(?)
单位成本(?)
每个收益(?):每个小概率事件发生时所得到的获利或是减少的损失。;1、回应模型;直效行销设定:
总体:50000;固定成本:200000;单位成本:250;每个收益:1000;2、损失模型;信用评等模型设定:
总体:50000;固定成本:200,000;单位成本:—6,000;每个收益:—20,000;六、散布图;*;七、注意(聚类和关联规则的评估);至于关联规则,通常来说关联规则也是无监督学习,因为它的项目(例如,产品组合)过多,因此,每个选项本身就
文档评论(0)