零样本指代表达理解通过视觉语言真假验证.pdf

零样本指代表达理解通过视觉语言真假验证.pdf

零样本指代表达理解通过视觉语言真假验证

JeffreyLiuRongbinHu

mycube.tv,SanFrancisco,U.S.A.

摘要—指代表达理解(REC)通常使用任务训练的接地风格监督训练时显示出显著的改进。经过针对定位进行

模型来处理。我们表明,一个无需任何特定于REC训练的微调的大型多模态模型,包括CogVLM[13]变体,在

零样本工作流可以达到有竞争力或更优的表现

文档评论(0)

1亿VIP精品文档

相关文档