1月+新加坡国立大学+《NExT-GPT:万物皆可的多模态大语言模型》.docx

1月+新加坡国立大学+《NExT-GPT:万物皆可的多模态大语言模型》.docx

【前沿技术】NExT-GPT:万物皆可的多模态大语言模型

导语:随着生成式人工智能在技术进步中展现出强大的类人语言推理和决策能力,为实现通用人工智能铺垫了道路。世界是多模态的,人类通过多种感官获取互补信息,现在基于文本的大语言模型也获得了对图像、视频和音频等非文本模态的理解和感知能力。新加坡国立大学下一代搜索技术联合研究中心(NExT++ResearchCenter)通过将预训练编码器与其他模态对齐,探索多模态大语言模型(MM-LLMs)的发展。

一、总体架构

NExT-GPT框架由三个主要阶段组成:多模态编码阶段、LLM理解和推理阶段以及解码阶段。

多模态编码阶段。研究者们采用Image

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档