大型音频语言模型能否很好地理解音频？音频、场景和事件理解基准测试用于 LALMS.pdfVIP

下载本文档

0
0
约3.23万字
约 5页
2026-02-27 发布于北京
举报

大型音频语言模型能否很好地理解音频？音频、场景和事件理解基准测试用于 LALMS.pdf

大型音频语言模型能否很好地理解音频？

音频、场景和事件理解基准测试用于LALMS

HanYinandJung-WooChoi

SchoolofElectricalEngineering,KAIST,Daejeon,RepublicofKorea

ABSTRACT为了弥补这些差距，我们提出一个新的音频理解基准，即语

音、场景和事件理解基准（SSEU-Bench）。具体来说，SSEU-

最近，大型音频语言模型（LALMs）发展迅速，通过跨模态整合

Bench中的每个音频样本都由前景语音和背景声音事件组成，

展示了其在通用音频理解方面的强大效果。为了评估LALMs

在不同的信噪比水平下混合。我们从现有的SED数据集中整

的音频理解性能，研究人员提出了不同的基准测试。然而，在现

理了六个场景（即家庭、餐厅、市中心、杂货店、地铁站和居

有的基准测试中，对现实世界互动的关键方面研究不足，即音

民区）的现实背景非语言音频片段，涵盖了18类非语言声音事

频信号通常包含语音和非语音成分，并且这些组件的能量水平

在不同场景下可能有很大差异。此外，大多数基准测试没有考件。前景语音选自VCTK语料库[10]，代表真实世界交互中的

清晰语音。为了评估LALMs的音频理解能力，我们提出了三

虑在同一音频片段内对语音、场景和事件的联合理解。在这项

个从不同理解角度出发的任务：自动语音识别（ASR）、声学场

本工作中，我们引入了SSEU-基准，这是第一个多功能音频理解景分类（ASC）和音频标签（AT）。这三个任务使LALM能够

基准，明确考虑了语音与非语音音频之间的能量差异，并且提

全面解释音频，解决三个关键问题：“说话者在说什么？”，“演

译供了独立理解和联合理解两种设置来处理语音、场景和事件。

讲者在哪里（声学场景）？”和“周围环境中发生了哪些类型的

此外，我们展示了某些LALMs在联合理解设置下的特定任务

中上表现不佳。为了解决这个问题，我们引入了思维链，通过将事件？”。此外，我们提出了一种面向思维链（CoT）指导的推

1理方法用于LALMs，以提高不同粒度下音频信息的联合解释

2复杂任务分解为更简单的推理步骤，有效提高了LALMs的能力。这项工作的主要贡献如下：

v联合音频理解性能。

8IndexTerms—音频理解，大型音频语言模型，自动语音•我们介绍了SSEU-Bench。据我们所知，这是首个在同一音

4识别，音频标记频片段内联合分析语音、场景和事件的音频理解基准测试，

1同时集成了客观评估，并明确考虑了前景语音与背景声音

3事

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大型音频语言模型能否很好地理解音频？音频、场景和事件理解基准测试用于 LALMS.pdfVIP