CLIP模型:零样本学习与多模态预训练突破.pdf

CLIP模型:零样本学习与多模态预训练突破.pdf

ContrastiveLanguage-ImagePre-Training

(利用文本的监督信号训练一个迁移能力强的视觉模型)

这家伙有什么用呢?想象一个咱们训练图像分类的场景

训练1000个类别,预测就是这1000个类别的概率,无法拓展

新增类别还得重新训练重新标注太了,能不能一劳永逸呢

这就是CLIP要解决的问题,预训练模型直接zero-shot

与前人工作对比

CLIP指出,17年就已经开始有这些方法了,但是没获得太多关注

17年类似方法Imagenet上的效果才十几个点,根本就不行

然后OpenAi说了。

文档评论(0)

1亿VIP精品文档

相关文档