数据挖掘导论__第5章_分类_其他技术.ppt

下载文档 降价啦

29
0
约2.53万字
约 135页
2019-08-03 发布于安徽
举报
版权申诉
保障服务

数据挖掘导论__第5章_分类_其他技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 数据挖掘导论 * How to construct an ROC curve ROC Curve: Threshold = * 数据挖掘导论 * 代价敏感学习令C(i, j)表示预测一个i类记录为j类的代价 C(+, ?)是一个漏报的代价，而C(?, +)是一个假警告的代价模型M的总代价 Ct(M) = TP?C(+, +) + FP?C(?, +) + FN?C(+, ?) + TN?C(?, ?) 取C(+, +) = C(?, ?) = 0而C(+, ?) = C(?, +) = 1, 则Ct(M)等于误分类的记录数 Ct(M) = 0?(TP+TN) + 1?(FP+FN) = N?Err * 数据挖掘导论 * 代价敏感学习(续) 例: 犯假负错误的代价是犯假警告的一百倍 Ct(M1) = 150 ? (?1) + 60 ? 1 + 40 ? 100 = 3910 Ct(M2) = 250 ? (?1) + 5 ? 1 + 45 ? 100 = 4255 然而, 对于标准的准确率度量, M2优于M1 + ? + ? 150 60 40 Predicted class Actual class 250 Model 1 + ? + ? 250 5 45 Predicted class Actual class 200 Model 2 * 数据挖掘导论 * 代价敏感学习(续) 把代价敏感加入分类算法，如决策树选择分裂数据的最好的属性决定子树是否需要剪枝处理训练记录的权值, 使得学习算法收敛到代价最低的决策树修改叶结点上的决策规则修改叶结点上的决策规则设p(i|t)表示属于叶结点t的类i的训练记录所占的比例通常的决策规则把到达叶结点t的样本分到p(i|t)最大的类对于二类，分到正类，如果p(+|t) 0.5 * 数据挖掘导论 * 代价敏感学习(续) 基于代价的决策规则把到达叶结点t的样本分到类i，如果对于i=1, 2, …, K, 取最小值，其中C(i, j)表示预测一个i类记录为j类的代价对于二类问题，设C(+, +) = C(?, ?) = 0。到达叶结点t的样本分到正类，如果如果C(?, +) C(+, ?)，则阈值将小于0.5 * 数据挖掘导论 * 基于抽样的方法基于抽样的方法考虑一个包含100个正样本和1000个负样本的数据集 undersampling 随机抽取100个负样本, 与所有的正样本一起形成训练集问题: 一些有用的负样本可能没有选出来用于训练, 因此导致一个不太优的模型解决问题的方法：多次执行不充分抽样, 并归纳类似于组合学习方法的多分类器 oversampling 复制正样本, 直到训练集中正样本和负样本一样多可能导致模型过分拟合，因为一些噪声样本也可能被复制多次 undersampling + oversampling * 数据挖掘导论 * 两阶段学习两阶段学习：PN-Rules 是基于规则的分类学习分两个阶段，每个阶段学习一组规则训练阶段I：学习一组规则，尽可能覆盖正类阶段II：使用阶段I覆盖的正类和负类样本+部分其它负类样本，学习一组规则阶段I 阶段II Instances of + Instances of ? Instances of + Instances of ? * 数据挖掘导论 * 两阶段学习(续) 分类用第一组规则对x分类，如果分到负类，则x属于负类否则，用第二组规则确定x所属的类 R. Agarwal, and M. V. Joshi. PNrule: A new Framework for Learning Classifier Models in Data Mining (A Case-Study in Network Intrusion Detection). In Proc. of the First SIAM Conference on Data Mining. Chicago, USA, April 2001 * 数据挖掘导论 * 基于局部聚类的方法基本思想: 首先在大类上进行聚类，使得大类变成若干个小类，从而使得整个数据集变得平衡然后再使用普通的分类方法，比如SVM进行分类 Junjie Wu , Hui Xiong , Jian Chen, COG: local decomposition for rare class analysis, Data Mining and Knowledge Discovery, v.20 n.2, p.191-220, March 2010 知识回顾Knowledge Review