FlagEvalMM:一个灵活的全面多模态模型评估框架.pdfVIP

FlagEvalMM:一个灵活的全面多模态模型评估框架.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

FlagEvalMM:一个灵活的全面多模态模型评估框架

ZheqiHe,YeshengLiu,Jing-shuZheng,XuejingLi,

Jin-GeYao,BowenQin,RichengXuan,XiYang

BAAIFlagEvalTeam

{zqhe,yangxi}@

摘要整合理解和生成功能的统一多模态模型的兴趣

日益增加(Chenetal.,2025;Wangetal.,2024b)。

我们提出了FlagEvalMM,一个开源评估

这些发展强调了需要高效且全面的评估框

本框架,旨在全面评估多模态模型在视觉语架来评估多模态模型的各种能力。一个理想的

译言理解和生成任务(如视觉问答、文本到评估框架应该能够准确、高效和方便地评估

中图像/视频生成和图文检索)上的表现。通不同模型架构的各种能力。对于评估VLMs,

过独立的评估服务我们将模型推理与评估

3分离,从而实现灵活的资源分配,并无缝已经提出了几种框架,如Lmms-Eval(Zhang

v

1集成新任务和模型。此外,FlagEvalMMetal.,2024c)和Vlmevalkit(Duanetal.,2024),

8

利用先进的推理加速工具(例如vLLM,

0并被广泛采用。类似地,对于评估T2I和T2V

9SGLang)和异步数据加载来显著提高评

0生成模型,CompBench(Huangetal.,5555)和

.估效率。广泛的实验表明,FlagEvalMM提

6供了关于模型优势和局限性的准确且高效VBench(Huangetal.,2024)是流行的选项。然

0

5的见解,使其成为推动多模态研究的重要而,现有的评估框架通常针对特定的多模态任

2

:工具。该框架在/flageval-务,缺乏一个能够统一支持各种多模态任务的

v

ibaai/FlagEvalMM公开获取。全面评估系统。

x

r此外,当前的评估框架通常在一个运行时

a1介绍

环境中执行模型推理和评估。随着评估方法复

随着大型语言模型(LLMs)(Brownetal.,杂性的增加,例如使用大型语言模型作为裁判

2020)的快速发展,近年来集成了多种输入或(Guetal.,2024),这种架构选择已经显示出几

输出数据形式(如文本、图像和视频)的多模态个限制。这种紧密耦合可能导致模型推理环境

模型经历了显著的发展。目前,视觉-语言模型与评估环境之间的冲突,并且也可能阻碍资源

(VLMs)(OpenAI,2023;Anthropic,2024)是其中的有效利用。

最突出的多模态模型之一。这些模型通常接受在这项工作中,我们提出了标志评估多模

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档