多尺度视觉长former:用于高分辨率图像编码新视觉Transformer.pdfVIP

  • 1
  • 0
  • 约11.91万字
  • 约 22页
  • 2026-05-27 发布于北京
  • 举报

多尺度视觉长former:用于高分辨率图像编码新视觉Transformer.pdf

多尺度视觉长former:一种用于高分辨率图像编码的新视觉

Transformer

11†1†111

戴西阳21微软公司

2

{penzhan,xidai,jianwei.yang,bin.xiao,luyuan,jfgao}@.com国际数济学院

(IDEA)leizhang@

能够处理高分辨率特征图的视觉变换器是实现视觉和

语言模态模型架构统一以及改进多模态表示学习目标

的关键步骤。在本文中,我们提出了一种新的视觉变

本文介绍了一种新的视觉Transformer(ViT)架

文档评论(0)

1亿VIP精品文档

相关文档