MiniGPT-4:通过高级大型语言模型增强视觉-语言理解与多模态生成能力.pdfVIP

  • 0
  • 0
  • 约9.43万字
  • 约 30页
  • 2026-06-23 发布于北京
  • 举报

MiniGPT-4:通过高级大型语言模型增强视觉-语言理解与多模态生成能力.pdf

MINIGPT‑4:通过先进的大型语言模型增强视觉‑语言理解

陈俊,李翔,MohamedElhoseiny阿卜杜拉国王

科技大学{deyao.zhu,jun.chen,xiaoqian.shen,

xiang.li.1,mohamed.elhoseiny}@.sa

3

2

0

2

的GPT‑4展示了非凡的多模态能力,例如直接从手写文本生成和

t

cO2识别图像中的幽默元素。这些特性在以前的视觉‑语言模型中很少见到。然

而,GPT‑4背后的技术细节仍然未公开。我们认为,GPT‑4增强的多模态

生成能力源于使用了复杂的大型语言模型(LLM)。为了研究这一现象,

]我们提出了

文档评论(0)

1亿VIP精品文档

相关文档