- 19
- 0
- 约2.79千字
- 约 6页
- 2017-08-06 发布于北京
- 举报
不平衡数据的处理
一、什么是不平衡数据?
一个病例对照研究,其中病例10人,对照990人,建立了一个Logistic回归模型,并对模型进行了内部验证,发现正确为99%,这个模型可以发到高分的杂志上然而进一步发现,改模型不管怎么预测,都得到正常的结果,所谓的99%正确,原来是建立在1个病例都发现不了的基础上
从这个例子我们可以看出,当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,而使少数类样本的分类性能下降。因为这些算法大多数建立在各类数据分布平衡的假设之下,以寻求数据总体分类准确率为最大目标。
其实不平衡数据广泛存在于各个领域中,在二分类问题中尤其常见,表现为一个类(大类)所占的比例远远大于另一个类(小类),或者数据集当中一个响应变量的比例远远大于另一个。例如:一个自动产品质量检测机每天会检测工厂生产的产品,你会发现次品率是远远低于合格率的;在银行信用卡欺诈检测中,违规交易是远远少于合法交易的。
那么多大的比例叫做不平衡数据呢?在实际应用中,该比例可以达到1:100、 1:1000、甚至更大。有文献对该比例与分类性能之间的关系进行了深入的研究 , 研究结果表明很难明确地给出何种比例会降低分类器的性能,这是因为分类器的性能还与样本数和样本的可分性有关。在某些应用下,1:35的比例就会使某些分类方法无效,甚至1:10的比例也会使某些分类方法无效。
那么当碰到不平衡数据集的时候,我们该怎么处理呢?本文就将向大家介绍一些处理不平衡数据的方法,但在具体方法介绍前,先向大家介绍一些可以用来评价分类器的可选度量以及ROC曲线。
二、分类器性能评价方法
1. 可选度量
表1 二类分类问题的混淆矩阵
预测的类 + - 实际的类 + True Positive(TP) False Negative(FN) - False Positive(FP) True Negative(TN)
由于准确率(Accuracy=(TP+TN)/(TP+TN+FP+FN))度量将每个类看得同等重要因此它可能不适合用来分析不平衡数据。我们可以考虑以下度量:
1) 精度(Precision)
分类器预测为正类的那部分观测中实际为正类的观测所占的比例,精度越高,分类器的假正类错误率就越低:p=TP/(TP+FP)
2) 召回率(recall)
被分类器正确预测为正类观测的比例,具有高召回率的分类器很少将正类观测误分为负类观测:r=TP/(TP+FN)
3) F1 度量
精度和召回率合并而成的一个度量,表示召回率和精度的调和均值:F1=2rp/(r+p)=2/(1/r+1/p)
2接受者操作(Receiver Operationg Characterstics, ROC)曲线
上述可选度量虽都可作为分类器的评价测度,但都只是评价了分类器的部分性能,比如,精度只针对预测为正类的那部分观测,召回率也只针对实际正类观测的分类结果。而ROC曲线是显示分类器真正率(TPR,也称灵敏度,sensitivity)和假正率(FPR,也即1-特异度,1-specificity)之间折中的一种方法。TPR=TP/(TP+FN) 等于召回率的值,FPR=FP/(TN+FP)ROC曲线上的任意一点都代表了单个分类器在一个给定分布上的表现。ROC曲线下面积(AUC)提供了评价模型平均性能的方法,如果模型是完美的,则AUC等于1,如果模型仅仅是简单的随机猜测,则AUC等于0.5,如果一个模型好于另一个模型,则它的AUC较大。
三、针对不平衡数据的处理方法 ?
现有的不平衡数据处理方法主要分两方面:
1) 数据层次的方法:欠采样、过采样、混合采样
2) 算法层次的方法:代价敏感学习、基于Boosting的集成学习。
今天,主要向大家介绍4中处理方法,包括:欠采样法、过采样法、人工数据合成法、以及代价敏感学习法。
1. 欠采样法
主要应用于大规模数据情况下的不平衡数据分类,并对其中的大类进行处理,减少大类观测数来使数据集平衡,因为它降低了训练样本量,所以有助于减少时间、存储开销。最简单的方法是通过随机地删除一部分大类的观测直至数据平衡,缺点是丢失大类的一些重要信息,不能充分利用已有信息。考虑到随机欠采样法的这个缺点,人们提出一类有信息的欠采样法,包括:简易集成算法(EasyEnsemble)和平衡级联算法(BalanceCascade)。
简易集成算法(EasyEnsemble):从大类中有放回的随机采样n次,每次选取与小类观测数目近似的样本,那么可以得到n个样本集合记作{S1,S2,...,Sn},然后其中的每一份与小类样本结合组成n个训练样本{D1,D2,...,Dn},每一个训练集上得到一个模型,最后取多数分类器的分类结果为预测结果。
平衡级联算法
您可能关注的文档
最近下载
- 《合肥市新场景规模化应用示范行动方案(2025—2027年)》.pdf
- 标准化审查报告.doc VIP
- (新版)初级民航安全检查员资格考试题库大全-上(单选题汇总) .pdf VIP
- 2023初中毕业上卫校要多少分分数很高吗 .pdf VIP
- (新版)初级民航安全检查员资格考试题库大全-下(多选、判断题汇总).docx VIP
- H3C认证GB0-510 H3CNE-Security网络安全工程师考试题库及答案.docx VIP
- 索尼SW7600GR中文说明书.pdf
- 华三认证考试H3CNE安全 GB0-510 安全工程师考试题库(含答案).docx VIP
- 钢结构厂房水电安装施工组织方案.docx VIP
- 第1课+おじぎ+课文注音讲义 高中日语人教版第一册.docx VIP
原创力文档

文档评论(0)