听觉智能：通过声音理解世界.pdfVIP

下载本文档

0
0
约2.62万字
约 8页
2025-10-14 发布于北京
举报
版权申诉

听觉智能：通过声音理解世界.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

听觉智能：

通过声音理解世界

HyeonukNam

KoreaAdvancedInstituteofScienceandTechnology,SouthKorea

frednam@kaist.ac.kr

摘要—近期在听觉智能方面的进展已经产生了高表现力的情景背景——用户是在工作、休息还是社交——以决定

系统，用于声音事件检测（SED）、声景分类（ASC）、自动音频是否发送或延迟通知。就像人类助手依赖听觉环境进行

字幕生成（AAC）和音频问答（AQA）。然而，这些任务仍主协调和干预一样，AI助手和机器人必须理解非言语声

要局限于表面级别的识别——捕捉发生了什么，但不涉及为什么

音，才能在现实环境中有效协作。

本发生、它意味着什么或它是如何在特定情境中展开的。我提议将近期在听觉人工智能领域的进展推动了广泛任务

听觉智能的概念重新定义为一个分层的、环境化的处理过程，包

译括感知、推理和交互。为了实现这一观点，我引入了四个认知启的显著进步。声音事件检测（SED）已成为一项基础能

中发的任务范式——ASPIRE、SODA、AUX和AUGMENT力，支持诸如AI驱动感知、智能环境和生物声学监测

1——这些结构涵盖了时间-频率模式字幕生成、层次事件/场景描[4]–[10]等应用。除了SED，大量研究涵盖了自动语音识

v述、因果解释以及目标驱动的解读。总体而言，这些范式为更通

9别（ASR）和说话人识别/验证[11]–[20]、声音事件识别

2用化、可解释性和与人类一致的听觉智能提供了一条路线图，并[21]–[25]以及声音事件定位与检测（SELD）[26]–[29]。

8旨在促进关于机器如何理解声音这一问题的更广泛讨论。

7IndexTerms—听觉智能，机器听觉，声学识别，声音理新兴领域如自动化音频字幕生成（AAC）[30]–[32]、音

.解，可解释音频，多模态接地频问答、少量样本生物声学检测[33],[34]和人类听觉

0感知的计算建模[35]–[37]进一步扩展了听觉智能的范

5I.介绍围。与此同时，基于文本或标签条件的生成模型在声音

:大型语言模型（LLMs）通过自动化重复和繁琐的合成方面获得了关注[38]–[40]，为声音表示学习和多模

i任务显著增强了人类的能力[1]–[3]。通过简单的文本或态融合开辟了新的方向。

r语音提示，它们可以生成想法、协助研究、创建视觉内尽管这些进展巩固了机器听觉的基础，许多当前的

容，并进行类似人类的对话。多模态扩展现在不仅可以方法仍局限于表面级别的识别——识别发生了什么，而

通过文本进行交互，还可以通过图像和实时视频进行交不理解为什么会发生、意味着什么或如何与更广泛的感

互，利用智能手机的摄像头和显示屏来解释视觉输入。知和社会背景相关联[4]。这些限制表明我们对听觉智

尽管在视听理解方面取得了快速进展，但它们与声音的能的理解仍然不够具体，并促使向更多基于认知、情境

互动仍然主要限于语音：当前系统可以识别和合成语感知的框架转变。

音，但无法可靠地理解非语音音频，如音乐、环境音景

本文将听觉智能重新定义为一种分层的、情境化的

或日常声学事件。

理解形式，而不是一组特定任务的认知能力。我认为，

设想始终在线的大型语言模型，能够解读周围的

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

听觉智能：通过声音理解世界.pdfVIP