2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告.pdf

下载文档

0
0
约1.3万字
约 14页
2024-12-20 发布于重庆
举报
版权申诉
保障服务

2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告.pdf

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中

多模态大语言模型（MLLMs）轻量化

移

方法研究现状和展望

智

库

中国移动研究院业研究所

2024年12月

摘要

多模态大语言模型（MLLMs）在视觉问答、视觉理解与推理

等任务中展现出卓越的性能，但多模态大语言模型庞大的模型

规模和高昂的训练、推理成本限制了其在学术界和工业界的广

泛应用。因此，研究高效且轻量化的多模态大语言模型，特别

是在边缘计算场景中，潜力巨大。本文将全面介绍当前多模态

中

移

大语言模型轻量化的方法及研究现状，并探讨其局限性及未来

潜在的发展方向。智

库

一、多模态大语言模型概述

（一）什么是多模态大语言模型？

多模态大语言模型是一种创新性的人工智能模型，巧妙地

融合了大语言模型与多模态处理能力。它能够理解和生成涵盖

多种模态的数据，如文本、图像、视频、音频等，并通过多模

态信息的融合实现更广泛、更复杂的任务。多模态大语言模型

不仅具有强大的语言处理能力，还能通过对图像、视频或其他

模态的理解，进行跨模态任务处理，比如视觉问答、视觉推

理、多模态内容生成等。

2/14

（二）为什么要轻量化？

多模态大语言模型的成功主要得益于缩放定律（scaling

law），即资源投入越多，性能越高。然而，高资源需求限制了

其开发和部署。例如，MiniGPT-v2模型[16]的训练耗时超800

[3]

GPU小时，LLaVA-1.5-Vicuna-13B模型推理需18.2TFLOPS和

41.6G内存，资源消耗巨大。目前，主流多模态大语言模型多

由少数企业掌控，云端运行模式引发普及化和隐私保护担忧，

同时，高算力需求也限制了边缘设备的应用，对公平访问和隐

中

私保护构成挑战。鉴于此，轻量化多模态大语言模型的研究日

移

益受到重视，旨在降低资源消耗、提高适用性，同时尽量减少

性能损失。智

二、多模态大语言模型轻量化方法研究现状

库

多模态大语言模型主要由三个核心模块组成：视觉编码

器、预训练大语言模型、以及视觉-语言投影器，如图1所示。

轻量化多模态大语言模型优化措施主要集中在对上述三个模

块改进，并引入了视觉token压缩技术和高效结构设计。

3/14

图1多模态大语言模型的轻量化架构

出自论文《EfficientMultimodalLargeLanguageModels:ASurvey》

（一）三个核心模块优化

您可能关注的文档

文档评论（0）

如此醉 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2024年多模态大模型（MLLMs）轻量化方法研究现状和展望报告.pdf