引入强增强改善DeiT的蒸馏.pptxVIP

下载本文档

0
0
约4.59千字
约 27页
2026-03-05 发布于黑龙江
举报

引入强增强改善DeiT的蒸馏.pptx

引入强增强改善DeiT的蒸馏汇报人：XXXXXX

06总结与展望目录01研究背景与意义02强增强技术原理03核心方法设计04实验与性能分析05创新点与应用价值

01研究背景与意义

DeiT模型简介双令牌设计在标准ViT的classtoken基础上新增distillationtoken，分别学习真实标签和教师模型的软标签输出，最终层余弦相似度达0.93，提供互补分类信息。数据高效训练相比ViT需要JFT-300M等海量数据，DeiT通过知识蒸馏技术仅用ImageNet-1K即可达到84.2%top-1准确率，训练效率提升3-5倍（53小时预训练+20小时微调）。纯Transformer架构DeiT是完全基于Transformer的视觉模型，摒弃了传统CNN的卷积操作，通过PatchEmbedding将图像分割为16×16像素块并线性投影为768维向量，结合位置编码保留空间信息。

知识蒸馏在ViT中的挑战数据依赖性强ViT在数据不足时泛化能力差（如ImageNet-1K仅77.9%准确率），而DeiT通过CNN教师模型传递归纳偏置，将准确率提升至81.8%。01蒸馏策略选择实验表明硬蒸馏优于软蒸馏，且仅使用distillationtoken测试时性能（83.1%）超过单独使用classtoken。教师模型选择CNN教师（如RegNetY）比Transformer教师效果更好，因其能通过蒸馏将局部性假设引入全局注意力机制。计算资源限制ViT-Base/32需3天32GGPU预训练，而DeiT通过蒸馏策略大幅降低计算需求，单GPU即可完成训练。020304

长尾数据场景下的性能瓶颈小样本类别识别困难传统ViT在数据分布不均衡时，对尾部类别特征提取能力不足，需依赖外部数据增强。注意力机制偏差蒸馏信息不均衡全局自注意力易被头部类别主导，DeiT通过重复增强（RepeatedAugmentation）生成多样样本缓解偏差。教师模型对尾部类别的预测置信度较低，需设计类别平衡的蒸馏损失函数。

02强增强技术原理

分布外(OOD)图像生成机制多模态混合增强采用CutMix、MixUp等混合样本生成技术，在像素和标签层面融合不同类别的图像，创造介于原始类别之间的新样本分布。对抗性样本构造利用梯度反向传播生成对抗样本，模拟真实场景中的分布偏移情况，增强模型对异常输入的泛化能力。数据扰动策略通过极端裁剪、颜色抖动、高斯模糊等强增强手段生成超出原始数据分布的图像，迫使模型学习更具鲁棒性的特征表示，而非依赖数据表面的统计规律。

强增强对特征局部性的影响局部特征强化强增强通过破坏全局结构（如随机遮挡），迫使ViT学生网络像CNN教师一样关注局部纹理和边缘特征，而非仅依赖长距离依赖关系。注意力分布改变增强后的OOD图像会打乱自然图像的统计特性，使Transformer的注意力机制更均匀分布在各个patch上，避免过度聚焦于少数显著区域。低频信息抑制强增强（如高频噪声注入）能削弱模型对低频全局特征的依赖，促进中高频局部特征的提取，这与CNN的归纳偏置更加吻合。跨样本一致性约束对同一图像施加不同增强产生的特征表示会被拉近，这种一致性正则化能防止模型对特定增强模式过拟合。

低分辨率教师网络的适配性计算效率优势采用低分辨率输入的CNN教师（如96x96像素）大幅减少FLOPs，使蒸馏过程能在有限算力下处理更多增强样本。特征粒度匹配低分辨率教师的感受野与ViT的patch划分尺度更接近，确保知识传递时空间语义对齐，避免跨尺度特征映射偏差。抗过拟合设计低分辨率天然抑制高频细节，迫使教师网络输出更平滑的决策边界，这种正则化效应通过蒸馏传递给学生模型。

03核心方法设计

DIST标记与CLS标记的分化策略功能解耦设计DIST标记专注于蒸馏任务的特征提取，CLS标记保留原始分类任务的表征学习，通过注意力掩码实现两种标记的交互隔离为DIST标记配置独立的梯度回传通道，避免与CLS标记的梯度更新产生耦合干扰，确保蒸馏信号的纯净性根据训练阶段自动调整DIST与CLS标记的损失权重比例，初期侧重蒸馏特征迁移，后期强化分类精度提升梯度路径分离动态权重分配

SAM通过同时优化损失值和损失曲率，使教师模型在参数空间中找到对扰动不敏感的平坦区域，其输出的特征分布更具鲁棒性。SAM采用双重梯度更新机制，首轮计算原始梯度确定扰动方向，次轮在扰动后参数位置计算最终梯度，有效探索参数空间的平坦区域。采用SAM优化CNN教师模型的训练过程，通过寻找平坦极小值点来提升模型的泛化能力，进而为ViT学生模型提供更稳定的蒸馏目标，特别适用于长尾数据中的尾部类别学习。平坦损失曲面的优势长尾数据中尾部样本稀少易导致过拟合，SAM训练的教师模型能提供通用性更强的特征表示，帮助学生模型在有限样本下学习

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

引入强增强改善DeiT的蒸馏.pptxVIP