2024年多模态大模型(MLLMs)轻量化方法研究现状和展望报告.pdf

2024年多模态大模型(MLLMs)轻量化方法研究现状和展望报告.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

多模态大语言模型(MLLMs)轻量化

方法研究现状和展望

中国移动研究院业研究所

2024年12月

摘要

多模态大语言模型(MLLMs)在视觉问答、视觉理解与推理

等任务中展现出卓越的性能,但多模态大语言模型庞大的模型

规模和高昂的训练、推理成本限制了其在学术界和工业界的广

泛应用。因此,研究高效且轻量化的多模态大语言模型,特别

是在边缘计算场景中,潜力巨大。本文将全面介绍当前多模态

大语言模型轻量化的方法及研究现状,并探讨其局限性及未来

潜在的发展方向。智

一、多模态大语言模型概述

(一)什么是多模态大语言模型?

多模态大语言模型是一种创新性的人工智能模型,巧妙地

融合了大语言模型与多模态处理能力。它能够理解和生成涵盖

多种模态的数据,如文本、图像、视频、音频等,并通过多模

态信息的融合实现更广泛、更复杂的任务。多模态大语言模型

不仅具有强大的语言处理能力,还能通过对图像、视频或其他

模态的理解,进行跨模态任务处理,比如视觉问答、视觉推

理、多模态内容生成等。

2/14

(二)为什么要轻量化?

多模态大语言模型的成功主要得益于缩放定律(scaling

law),即资源投入越多,性能越高。然而,高资源需求限制了

其开发和部署。例如,MiniGPT-v2模型[16]的训练耗时超800

[3]

GPU小时,LLaVA-1.5-Vicuna-13B模型推理需18.2TFLOPS和

41.6G内存,资源消耗巨大。目前,主流多模态大语言模型多

由少数企业掌控,云端运行模式引发普及化和隐私保护担忧,

同时,高算力需求也限制了边缘设备的应用,对公平访问和隐

私保护构成挑战。鉴于此,轻量化多模态大语言模型的研究日

益受到重视,旨在降低资源消耗、提高适用性,同时尽量减少

性能损失。智

二、多模态大语言模型轻量化方法研究现状

多模态大语言模型主要由三个核心模块组成:视觉编码

器、预训练大语言模型、以及视觉-语言投影器,如图1所示。

轻量化多模态大语言模型优化措施主要集中在对上述三个模

块改进,并引入了视觉token压缩技术和高效结构设计。

3/14

图1多模态大语言模型的轻量化架构

出自论文《EfficientMultimodalLargeLanguageModels:ASurvey》

(一)三个核心模块优化

文档评论(0)

如此醉 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档