第17章节-数据挖掘模型评价.pptVIP

下载本文档

1
0
约9.98千字
约 49页
2018-09-20 发布于未知
举报
版权申诉

第17章节-数据挖掘模型评价.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Copyright 2003-12, SPSS Taiwan Corp. 数据挖掘原理与SPSS Clementine应用宝典元昌安主编　邓　松　李文敬　刘海涛　编著电子工业出版社 17.1基于损失函数的标准 17.1.1混淆矩阵混淆矩阵（confusion matrix ）用来作为分类规则特征的表示，它包括了每一类的样本个数，包括正确的和错误的分类。主对角线给出了每一类正确分类的样本的个数，非对角线上的元素则表示未被正确分类的样本个数。对于 m类的分类问题，误差可能有m2-m。如果仅有2类（正样本和负样本，用T和F或1和0来象征性地代表），就只有两类误差。期望为T，但分类为F：称为假负。期望为F，但分类为T：称为假正。此外期望为T，但分类为T：称为真正。期望为F，但分类为F：称为真负。我们可以把它们汇总在表17-1正、负样本的混淆矩阵中。当分类数m为3时，对角线给出正确的预测。如表17-23个类的混淆矩阵所示。在本例中，总共是150个检验样本。有6类误差（m2-m=32-3=6）, 在表中它们以粗体字表示。可以看到，这个分类器对于属于B类的46中的38个样本给出了正确的分类；8个样本给出了错误的分类，其中2个分到了A类，6个分到了C类。 17.1.2 准确率及误差的度量为了度量分类器的预测精度，如果明确或隐含地假设每个被错分的数据会产生相同的成本，我们引入误差率和准确率这两个参数作为它的一个性能度量来对其进行评估。误差率R是误差数目E和检验集中的样本数S的比值：（17-1）分类器的准确率A是检验集中正确分类数和检验集中样本数S的比值，它的计算是：（17-2）到目前为止，我们所假设的是每个误差同等成本，如果对于不同的错误有不同的成本的话，即使一个模型有低的准确率，它也比一个有高准确率但是成本高的模型更好。例如，在表17-23个类的混淆矩阵中如果假定每一个正确分类的成本为1000元，关于A类分错的成本是500元，关于B类分错的成本是1000元，关于C类分错的成本是2000元，则通过矩阵计算模型成本为（123×1000）－（5×500）－（12×1000）－（10×2000）=88500元。因此当不同类型的误差对应不同的权值时，我们要将每个误差乘以对应的权值因子cij 如果混淆矩阵中的误差元素为eij，那么总成本函数C（替代精度计算中的误差数）可以计算为： (17-3 ) 要描述模型的质量，必须有更加复杂和全局性的度量。为此我们引入5个参数：敏感性（sensitivity），特异性（specificity），精度（precision），错误正例（false positives），错误负例（false negatives）。敏感性（sensitivity）= （17-4）特异性（specificity）= （17-5）以上两个参数分别评估分类器识别正样本的情况和识别负样本的情况。精度（precision）= (17-6) 错误正例（false positives）=1- （17-7）错误负例（false negatives）=1- （17-8）其中，t_pos是真正的样本个数， pos是正样本数，t_neg是真负的样本个数，neg是负样本的个数， f_pos是假正的样本个数。最终准确率为： A= × + × （17-9） [例17-1] 基于表17-1 正、负样本的混淆矩阵。事件(Event)这个术语代表二值响应变量的值Y，Event (1)表示成功，Event(0)表示失败。可以把一个检验数据集中的样本数据分为可能的4类，如表17-3事件（Event）的混淆矩阵: 该模型的敏感性（sensitivity），特异性（specificity），精度（precision），错误正例（false positives），错误负例（false negatives）5