MECAT：一个用于细粒度音频理解任务的多专家构建基准.pdfVIP

MECAT：一个用于细粒度音频理解任务的多专家构建基准.pdf

MECAT：一个用于细粒度音频理解任务的多专家构建基准

1∗1,2∗111,31

YadongNiu,TianziWang,HeinrichDinkel,XingweiSun,JiahaoZhou,GangLi,

1211

JizhongLiu,XunyingLiu,JunboZhang,JianLuan

1MiLMPlus,XiaomiInc,Beijing,China

2TheChineseUniversityofHongKong,HongKong,China

3BeijingUniversityofPostsandTelecommunications,Beijing,China

Abstract尽管取得了这些进展，当前的大型语言模型仍未

能达到人类听力所具备的那种全面理解(Sakshietal.

虽然大型音频语言模型已经提升了开放性音频理解的能

2025)。本文认为，尽管在模型架构和数据方面不断改

力，但它们仍未能达到细微的人类水平的理解。这一差距

主要存在是因为当前的基准测试受限于数据标注和评估进，但一个关键且常被忽视的瓶颈是现有的评估基准。

本指标，无法可靠地区分通用输出与高度详细的模型输出。

第二个挑战在于评估指标。传统的词汇匹配指标一

译为此，本研究引入了MECAT，一个Multi-ExpertCon-

structed细粒度音频理解AudioUnderstandingTasks方面会惩罚语义正确但词汇不同的描述。基于嵌入的指

中基准测试。通过整合专业专家模型分析与链式思考大型标另一方面更符合人类感知，但通常无法区分通用模糊

2语言模型推理的管道生成，MECAT提供了多视角、细的标题和高度详细准确的描述。即使是较新的以LLM

1粒度的标注和开放式问题答案对。该基准测试由一项新为裁判的方法，在展示出强大的判别能力的同时，也经

1指标补充：日期（D是区分性-E增强音频T文本E评常受到高成本和推理速度慢等实际限制的影响，以及其

5估）。该指标通过结合单样本语义相似性和跨样本可区分在模型选择和提示设计上的高度依赖。

3性来惩罚通用术语并奖励详细描述。还对最先进的音频

.模型进行了全面评估，提供了对它们当前能力和局限性当前的基准测试无法充分评估音频理解，因为它们

0的新见解。数据和代码可在/xiaomi-通常会为不同的场景奖励通用的描述（例如，“一只狗

5research/mecat获取。在叫，人们在说话”）（例如，在公园里兴奋地吠叫与在

:争执中防御性地吠叫）。这限制了它们区分真正具有感

i介绍知准确性模型和那些产生模糊输出模型的能力。

r人类的听觉系统在处理复杂的声学场景方面非常

a为此，我们引入了MECAT，一个细粒度音频理解

有效。它可以区分声音中的细微变化，例如分辨一只狗

更多 >