听觉智能:通过声音理解世界.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

听觉智能:

通过声音理解世界

HyeonukNam

KoreaAdvancedInstituteofScienceandTechnology,SouthKorea

frednam@kaist.ac.kr

摘要—近期在听觉智能方面的进展已经产生了高表现力的情景背景——用户是在工作、休息还是社交——以决定

系统,用于声音事件检测(SED)、声景分类(ASC)、自动音频是否发送或延迟通知。就像人类助手依赖听觉环境进行

字幕生成(AAC)和音频问答(AQA)。然而,这些任务仍主协调和干预一样,AI助手和机器人必须理解非言语声

要局限于表面级别的识别——捕捉发生了什么,但不涉及为什么

音,才能在现实环境中有效协作。

本发生、它意味着什么或它是如何在特定情境中展开的。我提议将近期在听觉人工智能领域的进展推动了广泛任务

听觉智能的概念重新定义为一个分层的、环境化的处理过程,包

译括感知、推理和交互。为了实现这一观点,我引入了四个认知启的显著进步。声音事件检测(SED)已成为一项基础能

中发的任务范式——ASPIRE、SODA、AUX和AUGMENT力,支持诸如AI驱动感知、智能环境和生物声学监测

1——这些结构涵盖了时间-频率模式字幕生成、层次事件/场景描[4]–[10]等应用。除了SED,大量研究涵盖了自动语音识

v述、因果解释以及目标驱动的解读。总体而言,这些范式为更通

9别(ASR)和说话人识别/验证[11]–[20]、声音事件识别

2用化、可解释性和与人类一致的听觉智能提供了一条路线图,并[21]–[25]以及声音事件定位与检测(SELD)[26]–[29]。

8旨在促进关于机器如何理解声音这一问题的更广泛讨论。

7IndexTerms—听觉智能,机器听觉,声学识别,声音理新兴领域如自动化音频字幕生成(AAC)[30]–[32]、音

0

.解,可解释音频,多模态接地频问答、少量样本生物声学检测[33],[34]和人类听觉

8

0感知的计算建模[35]–[37]进一步扩展了听觉智能的范

5I.介绍围。与此同时,基于文本或标签条件的生成模型在声音

2

:大型语言模型(LLMs)通过自动化重复和繁琐的合成方面获得了关注[38]–[40],为声音表示学习和多模

v

i任务显著增强了人类的能力[1]–[3]。通过简单的文本或态融合开辟了新的方向。

x

r语音提示,它们可以生成想法、协助研究、创建视觉内尽管这些进展巩固了机器听觉的基础,许多当前的

a

容,并进行类似人类的对话。多模态扩展现在不仅可以方法仍局限于表面级别的识别——识别发生了什么,而

通过文本进行交互,还可以通过图像和实时视频进行交不理解为什么会发生、意味着什么或如何与更广泛的感

互,利用智能手机的摄像头和显示屏来解释视觉输入。知和社会背景相关联[4]。这些限制表明我们对听觉智

尽管在视听理解方面取得了快速进展,但它们与声音的能的理解仍然不够具体,并促使向更多基于认知、情境

互动仍然主要限于语音:当前系统可以识别和合成语感知的框架转变。

音,但无法可靠地理解非语音音频,如音乐、环境音景

本文将听觉智能重新定义为一种分层的、情境化的

或日常声学事件。

理解形式,而不是一组特定任务的认知能力。我认为,

设想始终在线的大型语言模型,能够解读周围的

您可能关注的文档

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档