- 0
- 0
- 约3.23万字
- 约 5页
- 2026-02-27 发布于北京
- 举报
大型音频语言模型能否很好地理解音频?
音频、场景和事件理解基准测试用于LALMS
HanYinandJung-WooChoi
SchoolofElectricalEngineering,KAIST,Daejeon,RepublicofKorea
ABSTRACT为了弥补这些差距,我们提出一个新的音频理解基准,即语
音、场景和事件理解基准(SSEU-Bench)。具体来说,SSEU-
最近,大型音频语言模型(LALMs)发展迅速,通过跨模态整合
Bench中的每个音频样本都由前景语音和背景声音事件组成,
展示了其在通用音频理解方面的强大效果。为了评估LALMs
在不同的信噪比水平下混合。我们从现有的SED数据集中整
的音频理解性能,研究人员提出了不同的基准测试。然而,在现
理了六个场景(即家庭、餐厅、市中心、杂货店、地铁站和居
有的基准测试中,对现实世界互动的关键方面研究不足,即音
民区)的现实背景非语言音频片段,涵盖了18类非语言声音事
频信号通常包含语音和非语音成分,并且这些组件的能量水平
在不同场景下可能有很大差异。此外,大多数基准测试没有考件。前景语音选自VCTK语料库[10],代表真实世界交互中的
清晰语音。为了评估LALMs的音频理解能力,我们提出了三
虑在同一音频片段内对语音、场景和事件的联合理解。在这项
个从不同理解角度出发的任务:自动语音识别(ASR)、声学场
本工作中,我们引入了SSEU-基准,这是第一个多功能音频理解景分类(ASC)和音频标签(AT)。这三个任务使LALM能够
基准,明确考虑了语音与非语音音频之间的能量差异,并且提
全面解释音频,解决三个关键问题:“说话者在说什么?”,“演
译供了独立理解和联合理解两种设置来处理语音、场景和事件。
讲者在哪里(声学场景)?”和“周围环境中发生了哪些类型的
此外,我们展示了某些LALMs在联合理解设置下的特定任务
中上表现不佳。为了解决这个问题,我们引入了思维链,通过将事件?”。此外,我们提出了一种面向思维链(CoT)指导的推
1理方法用于LALMs,以提高不同粒度下音频信息的联合解释
2复杂任务分解为更简单的推理步骤,有效提高了LALMs的能力。这项工作的主要贡献如下:
v联合音频理解性能。
8IndexTerms—音频理解,大型音频语言模型,自动语音•我们介绍了SSEU-Bench。据我们所知,这是首个在同一音
4识别,音频标记频片段内联合分析语音、场景和事件的音频理解基准测试,
1同时集成了客观评估,并明确考虑了前景语音与背景声音
3事
您可能关注的文档
最近下载
- 2026开封市第三届职业技能大赛汽车技术(世赛选拔)项目技术工作文件.pdf VIP
- 站用交直流电源系统技术规范第3部分:直流电源系统.pdf VIP
- 2024年初级会计职称《经济法基础》精讲课件.pptx VIP
- 2025年湖南机电职业技术学院单招职业技能测试题库及参考答案.docx VIP
- 2025年浙江机电职业技术学院单招(语文)测试试卷.docx VIP
- 泰国和中国合同模板(3篇).docx VIP
- 2025年湖南机电职业技术学院单招职业技能测试题库参考答案.docx VIP
- (2026春新版)人教版二年级数学下册《第三单元 万以内数的认识》教案.docx VIP
- 四年级小学下书法设计教案.doc VIP
- 烟气余热利用的热管式换热器设计(毕业论文).docx VIP
原创力文档

文档评论(0)