大型音频语言模型能否很好地理解音频? 音频、场景和事件理解基准测试用于 LALMS.pdfVIP

  • 0
  • 0
  • 约3.23万字
  • 约 5页
  • 2026-02-27 发布于北京
  • 举报

大型音频语言模型能否很好地理解音频? 音频、场景和事件理解基准测试用于 LALMS.pdf

大型音频语言模型能否很好地理解音频?

音频、场景和事件理解基准测试用于LALMS

HanYinandJung-WooChoi

SchoolofElectricalEngineering,KAIST,Daejeon,RepublicofKorea

ABSTRACT为了弥补这些差距,我们提出一个新的音频理解基准,即语

音、场景和事件理解基准(SSEU-Bench)。具体来说,SSEU-

最近,大型音频语言模型(LALMs)发展迅速,通过跨模态整合

Bench中的每个音频样本都由前景语音和背景声音事件组成,

展示了其在通用音频理解方面的强大效果。为了评估LALMs

在不同的信噪比水平下混合。我们从现有的SED数据集中整

的音频理解性能,研究人员提出了不同的基准测试。然而,在现

理了六个场景(即家庭、餐厅、市中心、杂货店、地铁站和居

有的基准测试中,对现实世界互动的关键方面研究不足,即音

民区)的现实背景非语言音频片段,涵盖了18类非语言声音事

频信号通常包含语音和非语音成分,并且这些组件的能量水平

在不同场景下可能有很大差异。此外,大多数基准测试没有考件。前景语音选自VCTK语料库[10],代表真实世界交互中的

清晰语音。为了评估LALMs的音频理解能力,我们提出了三

虑在同一音频片段内对语音、场景和事件的联合理解。在这项

个从不同理解角度出发的任务:自动语音识别(ASR)、声学场

本工作中,我们引入了SSEU-基准,这是第一个多功能音频理解景分类(ASC)和音频标签(AT)。这三个任务使LALM能够

基准,明确考虑了语音与非语音音频之间的能量差异,并且提

全面解释音频,解决三个关键问题:“说话者在说什么?”,“演

译供了独立理解和联合理解两种设置来处理语音、场景和事件。

讲者在哪里(声学场景)?”和“周围环境中发生了哪些类型的

此外,我们展示了某些LALMs在联合理解设置下的特定任务

中上表现不佳。为了解决这个问题,我们引入了思维链,通过将事件?”。此外,我们提出了一种面向思维链(CoT)指导的推

1理方法用于LALMs,以提高不同粒度下音频信息的联合解释

2复杂任务分解为更简单的推理步骤,有效提高了LALMs的能力。这项工作的主要贡献如下:

v联合音频理解性能。

8IndexTerms—音频理解,大型音频语言模型,自动语音•我们介绍了SSEU-Bench。据我们所知,这是首个在同一音

4识别,音频标记频片段内联合分析语音、场景和事件的音频理解基准测试,

1同时集成了客观评估,并明确考虑了前景语音与背景声音

3事

文档评论(0)

1亿VIP精品文档

相关文档