FlagEvalMM：一个灵活的全面多模态模型评估框架.pdfVIP

下载本文档

1
0
约3.4万字
约 12页
2025-09-29 发布于北京
举报
版权申诉

FlagEvalMM：一个灵活的全面多模态模型评估框架.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

FlagEvalMM：一个灵活的全面多模态模型评估框架

ZheqiHe,YeshengLiu,Jing-shuZheng,XuejingLi,

Jin-GeYao,BowenQin,RichengXuan,XiYang

BAAIFlagEvalTeam

{zqhe,yangxi}@

摘要整合理解和生成功能的统一多模态模型的兴趣

日益增加(Chenetal.,2025;Wangetal.,2024b)。

我们提出了FlagEvalMM，一个开源评估

这些发展强调了需要高效且全面的评估框

本框架，旨在全面评估多模态模型在视觉语架来评估多模态模型的各种能力。一个理想的

译言理解和生成任务（如视觉问答、文本到评估框架应该能够准确、高效和方便地评估

中图像/视频生成和图文检索）上的表现。通不同模型架构的各种能力。对于评估VLMs，

过独立的评估服务我们将模型推理与评估

3分离，从而实现灵活的资源分配，并无缝已经提出了几种框架，如Lmms-Eval(Zhang

1集成新任务和模型。此外，FlagEvalMMetal.,2024c)和Vlmevalkit(Duanetal.,2024)，

利用先进的推理加速工具（例如vLLM,

0并被广泛采用。类似地，对于评估T2I和T2V

9SGLang）和异步数据加载来显著提高评

0生成模型，CompBench(Huangetal.,5555)和

.估效率。广泛的实验表明，FlagEvalMM提

6供了关于模型优势和局限性的准确且高效VBench(Huangetal.,2024)是流行的选项。然

5的见解，使其成为推动多模态研究的重要而，现有的评估框架通常针对特定的多模态任

:工具。该框架在/ﬂageval-务，缺乏一个能够统一支持各种多模态任务的

ibaai/FlagEvalMM公开获取。全面评估系统。

r此外，当前的评估框架通常在一个运行时

a1介绍

环境中执行模型推理和评估。随着评估方法复

随着大型语言模型（LLMs）(Brownetal.,杂性的增加，例如使用大型语言模型作为裁判

2020)的快速发展，近年来集成了多种输入或(Guetal.,2024)，这种架构选择已经显示出几

输出数据形式（如文本、图像和视频）的多模态个限制。这种紧密耦合可能导致模型推理环境

模型经历了显著的发展。目前，视觉-语言模型与评估环境之间的冲突，并且也可能阻碍资源

（VLMs）(OpenAI,2023;Anthropic,2024)是其中的有效利用。

最突出的多模态模型之一。这些模型通常接受在这项工作中，我们提出了标志评估多模

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

FlagEvalMM：一个灵活的全面多模态模型评估框架.pdfVIP