- 0
- 0
- 约3.21万字
- 约 11页
- 2026-03-09 发布于北京
- 举报
MECAT:一个用于细粒度音频理解任务的多专家构建基准
1∗1,2∗111,31
YadongNiu,TianziWang,HeinrichDinkel,XingweiSun,JiahaoZhou,GangLi,
1211
JizhongLiu,XunyingLiu,JunboZhang,JianLuan
1MiLMPlus,XiaomiInc,Beijing,China
2TheChineseUniversityofHongKong,HongKong,China
3BeijingUniversityofPostsandTelecommunications,Beijing,China
Abstract尽管取得了这些进展,当前的大型语言模型仍未
能达到人类听力所具备的那种全面理解(Sakshietal.
虽然大型音频语言模型已经提升了开放性音频理解的能
2025)。本文认为,尽管在模型架构和数据方面不断改
力,但它们仍未能达到细微的人类水平的理解。这一差距
主要存在是因为当前的基准测试受限于数据标注和评估进,但一个关键且常被忽视的瓶颈是现有的评估基准。
本指标,无法可靠地区分通用输出与高度详细的模型输出。
第二个挑战在于评估指标。传统的词汇匹配指标一
译为此,本研究引入了MECAT,一个Multi-ExpertCon-
structed细粒度音频理解AudioUnderstandingTasks方面会惩罚语义正确但词汇不同的描述。基于嵌入的指
中基准测试。通过整合专业专家模型分析与链式思考大型标另一方面更符合人类感知,但通常无法区分通用模糊
2语言模型推理的管道生成,MECAT提供了多视角、细的标题和高度详细准确的描述。即使是较新的以LLM
v
1粒度的标注和开放式问题答案对。该基准测试由一项新为裁判的方法,在展示出强大的判别能力的同时,也经
1指标补充:日期(D是区分性-E增强音频T文本E评常受到高成本和推理速度慢等实际限制的影响,以及其
5估)。该指标通过结合单样本语义相似性和跨样本可区分在模型选择和提示设计上的高度依赖。
3性来惩罚通用术语并奖励详细描述。还对最先进的音频
2
.模型进行了全面评估,提供了对它们当前能力和局限性当前的基准测试无法充分评估音频理解,因为它们
7
0的新见解。数据和代码可在/xiaomi-通常会为不同的场景奖励通用的描述(例如,“一只狗
5research/mecat获取。在叫,人们在说话”)(例如,在公园里兴奋地吠叫与在
2
:争执中防御性地吠叫)。这限制了它们区分真正具有感
v
i介绍知准确性模型和那些产生模糊输出模型的能力。
x
r人类的听觉系统在处理复杂的声学场景方面非常
a为此,我们引入了MECAT,一个细粒度音频理解
有效。它可以区分声音中的细微变化,例如分辨一只狗
您可能关注的文档
- 通过对抗引导课程采样增强基于扩散的数据集蒸馏.pdf
- SketchAgent:从手绘草图生成结构化图表.pdf
- 具有风险保证的故障检测中的校准预测集通过显著性检验.pdf
- 展示了联网和自动驾驶车辆在网络安全、安全性和隐私问题方面的标准和方法.pdf
- WIP:通过 AI 驱动的同伴代理增强基于游戏的学习.pdf
- 基于图的交互增强网络用于稳健的多模态情感分析.pdf
- RoboLinker: 一种基于扩散模型的人类与陪伴机器人之间的匹配服装生成器.pdf
- CSIRO-LT 在 SemEval-2025 任务 11 中:适应多语言情感识别的大型语言模型.pdf
- Q8bot 的设计:一款采用零电线构建的微型低成本动态四足机器人.pdf
- 跨设备运动交互通过苹果的原生系统框架.pdf
最近下载
- IPC-A-600G印制板验收标准(中文版)概论.docx VIP
- 《我们大家跳起来》(课件)人音版音乐四年级下册.ppt VIP
- 22J403-1 楼梯 栏杆 栏板(一) (3).pdf VIP
- (高清版)DB51∕T 3057-2023 四川省政务信息系统建设指南.pdf VIP
- 人工智能人才供需生态分析与教育链协同机制研究.pdf VIP
- 2025至2030中国单细胞基因组测序行业市场占有率及有效策略与实施路径评估报告.docx VIP
- DB43_T 3090-2024水运工程交(竣)工检测规范.pdf VIP
- DB45T 2418-2021 水运工程交工检测与竣工检测规范.pdf VIP
- 2025至2030中国单细胞测序行业市场深度调研及有效策略与实施路径评估报告.docx VIP
- 2025年江苏医药职业学院单招《数学》测试卷附参考答案详解(精练).docx VIP
原创力文档

文档评论(0)