- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 数据挖掘导论 * How to construct an ROC curve ROC Curve: Threshold = * 数据挖掘导论 * 代价敏感学习 令C(i, j)表示预测一个i类记录为j类的代价 C(+, ?)是一个漏报的代价,而C(?, +)是一个假警告的代价 模型M的总代价 Ct(M) = TP?C(+, +) + FP?C(?, +) + FN?C(+, ?) + TN?C(?, ?) 取C(+, +) = C(?, ?) = 0而C(+, ?) = C(?, +) = 1, 则Ct(M)等于误分类的记录数 Ct(M) = 0?(TP+TN) + 1?(FP+FN) = N?Err * 数据挖掘导论 * 代价敏感学习(续) 例: 犯假负错误的代价是犯假警告的一百倍 Ct(M1) = 150 ? (?1) + 60 ? 1 + 40 ? 100 = 3910 Ct(M2) = 250 ? (?1) + 5 ? 1 + 45 ? 100 = 4255 然而, 对于标准的准确率度量, M2优于M1 + ? + ? 150 60 40 Predicted class Actual class 250 Model 1 + ? + ? 250 5 45 Predicted class Actual class 200 Model 2 * 数据挖掘导论 * 代价敏感学习(续) 把代价敏感加入分类算法,如决策树 选择分裂数据的最好的属性 决定子树是否需要剪枝 处理训练记录的权值, 使得学习算法收敛到代价最低的决策树 修改叶结点上的决策规则 修改叶结点上的决策规则 设p(i|t)表示属于叶结点t的类i的训练记录所占的比例 通常的决策规则 把到达叶结点t的样本分到p(i|t)最大的类 对于二类,分到正类,如果p(+|t) 0.5 * 数据挖掘导论 * 代价敏感学习(续) 基于代价的决策规则 把到达叶结点t的样本分到类i,如果对于i=1, 2, …, K, 取最小值,其中C(i, j)表示预测一个i类记录为j类的代价 对于二类问题,设C(+, +) = C(?, ?) = 0。到达叶结点t的样本分到正类,如果 如果C(?, +) C(+, ?),则阈值将小于0.5 * 数据挖掘导论 * 基于抽样的方法 基于抽样的方法 考虑一个包含100个正样本和1000个负样本的数据集 undersampling 随机抽取100个负样本, 与所有的正样本一起形成训练集 问题: 一些有用的负样本可能没有选出来用于训练, 因此导致一个不太优的模型 解决问题的方法:多次执行不充分抽样, 并归纳类似于组合学习方法的多分类器 oversampling 复制正样本, 直到训练集中正样本和负样本一样多 可能导致模型过分拟合,因为一些噪声样本也可能被复制多次 undersampling + oversampling * 数据挖掘导论 * 两阶段学习 两阶段学习:PN-Rules 是基于规则的分类 学习分两个阶段,每个阶段学习一组规则 训练 阶段I:学习一组规则,尽可能覆盖正类 阶段II:使用阶段I覆盖的正类和负类样本+部分其它负类样本,学习一组规则 阶段I 阶段II Instances of + Instances of ? Instances of + Instances of ? * 数据挖掘导论 * 两阶段学习(续) 分类 用第一组规则对x分类,如果分到负类,则x属于负类 否则,用第二组规则确定x所属的类 R. Agarwal, and M. V. Joshi. PNrule: A new Framework for Learning Classifier Models in Data Mining (A Case-Study in Network Intrusion Detection). In Proc. of the First SIAM Conference on Data Mining. Chicago, USA, April 2001 * 数据挖掘导论 * 基于局部聚类的方法 基本思想: 首先在大类上进行聚类,使得大类变成若干个小类,从而使得整个数据集变得平衡 然后再使用普通的分类方法,比如SVM进行分类 Junjie Wu , Hui Xiong , Jian Chen, COG: local decomposition for rare class analysis, Data Mining and Knowledge Discovery, v.20 n.2, p.191-220, March 2010 知识回顾Knowledge Review
原创力文档


文档评论(0)