基于对比知识蒸馏的长尾噪声标签学习.pdfVIP

下载本文档

0
0
约3.17万字
约 12页
2026-01-30 发布于江苏
举报

基于对比知识蒸馏的长尾噪声标签学习.pdf

基于对比知识蒸馏的长尾噪声标签学习

南京航空航天大学，计算机科学与技术学院

摘要

噪声标签学习问题下涌现了许多优秀的工作，然而在现实场景下，数据集总是呈现不平衡

的分布。当不平衡数据集中出现噪声标签时，噪声标签学习常用的做法：将小损失和大损

失样本分别视为干净样本和噪声样本就会失效。因为对于样本数较少的类，类内样本不论

是干净样本还是噪声样本因为拟合或错误分类，损失总是较大。因此，我们提出了一种

对比知识蒸馏（RCKD）方法。该方法采用多专家网络架构，通过对比学习和知识蒸馏来

学习鲁棒特征和标签预测。首先，为了从大损失样本中获取尾部类信息，我们提出了一种

群体对比学习策略，通过动态维护每个类别的平衡正负样本对来学习更鲁棒的表征，避免

头部类负样本对占主导的情况。其次，我们对对等网络之间的特征和标签进行多样化的知

识蒸馏，以收集不同形式的表征。我们迭代地训练网络来区分噪声样本并细化它们的伪标

签。通过RCKD增强长尾噪声标签下的表征和标签预测，我们提供了一种更好的分类方法并

在CIFAR，Tiny-ImageNet和Webvision基准数据集上进行了验证。

关键词:噪声标签，不平衡学习，对比学习，知识蒸馏

1引言

深度神经网路（DeepNeuralNetwork，DNN）在许多任务上取得了巨大的成功[14]，这主要

得益于高质量注释的数据集，但实际中，受限于标注成本或标注困难，难以取得大规模的高质

量数据集，而实际的数据集往往存在噪声标签。DNN具有强大的拟合数据能力，这使得模型往

往会拟合噪声标签并导致泛化能力的下降[1]。因此，设计帮助模型抵抗噪声标签的学习方法非

常重要。

在之前的工作中，已经提出了各种研究缓解噪声标签问题，如基于噪声转移矩阵的方法[22]，

设计鲁棒的损失函数[28]，调整采样策略[6,26]，校准标签[5,20]等。然而，这些方法隐式得认

为真是标签和观察到的标签分布平衡，它们主要专注于消除噪声标签得影响，而忽视了类别分

布的影响。

不同于实验中精心设计的类平衡数据集，在实际中，长尾不平衡数据集广泛存在，各个类

之间样本数量差异大。例如，著名的数据集WebVision[16]由网络爬取的图像构成，包含约20%的

噪声，样本数最多的类的实例数是最少类的20倍。数据集Clothing1M[27]的图片来自商城网站，

包含38.5%的噪声标签样本，约为5的不平衡率。当不平衡和噪声标签同时存在，训练将变得更

为困难：在不平衡数据集上训练的分类器往往偏向头部类，导致尾部类样本损失较大以及被错

误分类，这使得广泛使用的将小损失和大损失样本视为干净数据和噪声数据的方法失效[1]。

22.8%

3500cleansamplecleaninmajority

enoisysamplenoisyinmajority

p40

m300028.2%cleaninminority

Snoisyinminority

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于对比知识蒸馏的长尾噪声标签学习.pdfVIP