- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
FlagEvalMM:一个灵活的全面多模态模型评估框架
ZheqiHe,YeshengLiu,Jing-shuZheng,XuejingLi,
Jin-GeYao,BowenQin,RichengXuan,XiYang
BAAIFlagEvalTeam
{zqhe,yangxi}@
摘要整合理解和生成功能的统一多模态模型的兴趣
日益增加(Chenetal.,2025;Wangetal.,2024b)。
我们提出了FlagEvalMM,一个开源评估
这些发展强调了需要高效且全面的评估框
本框架,旨在全面评估多模态模型在视觉语架来评估多模态模型的各种能力。一个理想的
译言理解和生成任务(如视觉问答、文本到评估框架应该能够准确、高效和方便地评估
中图像/视频生成和图文检索)上的表现。通不同模型架构的各种能力。对于评估VLMs,
过独立的评估服务我们将模型推理与评估
3分离,从而实现灵活的资源分配,并无缝已经提出了几种框架,如Lmms-Eval(Zhang
v
1集成新任务和模型。此外,FlagEvalMMetal.,2024c)和Vlmevalkit(Duanetal.,2024),
8
利用先进的推理加速工具(例如vLLM,
0并被广泛采用。类似地,对于评估T2I和T2V
9SGLang)和异步数据加载来显著提高评
0生成模型,CompBench(Huangetal.,5555)和
.估效率。广泛的实验表明,FlagEvalMM提
6供了关于模型优势和局限性的准确且高效VBench(Huangetal.,2024)是流行的选项。然
0
5的见解,使其成为推动多模态研究的重要而,现有的评估框架通常针对特定的多模态任
2
:工具。该框架在/flageval-务,缺乏一个能够统一支持各种多模态任务的
v
ibaai/FlagEvalMM公开获取。全面评估系统。
x
r此外,当前的评估框架通常在一个运行时
a1介绍
环境中执行模型推理和评估。随着评估方法复
随着大型语言模型(LLMs)(Brownetal.,杂性的增加,例如使用大型语言模型作为裁判
2020)的快速发展,近年来集成了多种输入或(Guetal.,2024),这种架构选择已经显示出几
输出数据形式(如文本、图像和视频)的多模态个限制。这种紧密耦合可能导致模型推理环境
模型经历了显著的发展。目前,视觉-语言模型与评估环境之间的冲突,并且也可能阻碍资源
(VLMs)(OpenAI,2023;Anthropic,2024)是其中的有效利用。
最突出的多模态模型之一。这些模型通常接受在这项工作中,我们提出了标志评估多模
您可能关注的文档
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)