通过对抗引导课程采样增强基于扩散的数据集蒸馏.pdfVIP

下载本文档

0
0
约1.96万字
约 7页
2026-03-06 发布于北京
举报

通过对抗引导课程采样增强基于扩散的数据集蒸馏.pdf

通过对抗引导课程采样增强基于扩散的数据

集蒸馏

1111

LexiaoZouGongweiChenYandaChenMiaoZhang

1HarbinInstituteofTechnology,Shenzhen

Email:{lokshawchau,cydaaa30}@{chengongwei,zhangmiao}@

摘要—数据集蒸馏旨在将数据集中包含的丰富信息封装到外部循环中通过基于内部循环模型性能的损失函数来

一个紧凑的蒸馏数据集中，但在图像每类（IPC）设置或图像分优化合成像素[1]。这些方法涵盖了诸如时间反向传播

辨率增大的情况下会面临性能下降的问题。近期的研究表明，集[4],[5]、梯度匹配[6]–[8]、分布匹配[9]、训练轨迹匹配

成扩散生成模型可以有效地促进大规模数据集的压缩，并且由于

本[10]–[13]等技术。然而，由于它们依赖于像素级参数化

其在匹配数据分布和总结代表性模式方面的优越性而保持高效。

译然而，从扩散模型中采样的图像总是因为缺乏多样性而受到批和双层优化过程，随着合成数据集图像数量和分辨率的

中评，这可能导致当多个独立采样的图像聚合为一个蒸馏数据集时增加，参数的数量和优化计算复杂度显著增加。因此，

1出现信息冗余。为了应对这一问题，我们提出了对抗引导课程采这些方法的应用范围主要局限于小规模、低分辨率的数

v样（ACS），将蒸馏数据集划分为多个课程。对于生成每个课程，据集，如CIFAR[14]和Tiny-Imagenet[2]。

6ACS通过对抗损失指导扩散采样过程，以挑战在采样图像上训

2练的判别器，从而减轻课程之间的信息重叠，并促进更具多样性为了实现数据集蒸馏的可扩展性，Minimax[15]揭

1的蒸馏数据集的形成。此外，随着课程进度的发展，判别器不断示了由从扩散模型[3]训练的目标数据集中采样图像组

8.进化，ACS从简单到复杂地生成图像，确保有效地、系统性地成的人工数据集的自然压缩能力。训练扩散模型隐式优

0覆盖目标数据的信息频谱。广泛的实验表明ACS的有效性，在化合成和真实数据分布差异的上限，这被证明是数据集

5Imagewoof上实现了4.1%的显著提升，在ImageNet-1k上

2蒸馏[9],[16]的强大目标。在此基础上，Minimax引入

:则提升了2.1%，超过了最先进的方法。

v了扩散训练的极小极大准则以增强扩散过程中建模的

iIndexTerms—数据集蒸馏，引导扩散，课程学习

x分布多样性与代表性。这种方法只需要对预训练的扩散

aI.介绍模型进行微调，并通过从调整后的扩散模型中均匀采样

随着多媒体数据量的持续增长，它为多媒体研究提图像来构建人工数据集。总之，基于扩散的数据集蒸馏

供了丰富的语料库。然而，这种丰富性也给存储和计算显著减少了计算需求，促进了像ImageNet[2]这样的复

资源带来了重大挑战[1]–[3]。数据集蒸馏被提出用于将杂和高分辨率数据集的研究。然而，Minimax忽略了扩

大规模数据集中的信息压缩成一个更紧凑的人工合成散抽样的“低温”特性，即集中在已学好的高概率区域

数据集，从而在使用蒸馏后的数据集训练时保持测试性[17],[18]上生成样本。对于数据集蒸馏，“低温”特性

能与原始数据集相当[1]。变得尤为突出，因为单个采样会多次进行以构成一个蒸

早期的方法将数据集蒸馏视为一个双层优化任务。馏的数据集。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

通过对抗引导课程采样增强基于扩散的数据集蒸馏.pdfVIP