- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
听觉智能:
通过声音理解世界
HyeonukNam
KoreaAdvancedInstituteofScienceandTechnology,SouthKorea
frednam@kaist.ac.kr
摘要—近期在听觉智能方面的进展已经产生了高表现力的情景背景——用户是在工作、休息还是社交——以决定
系统,用于声音事件检测(SED)、声景分类(ASC)、自动音频是否发送或延迟通知。就像人类助手依赖听觉环境进行
字幕生成(AAC)和音频问答(AQA)。然而,这些任务仍主协调和干预一样,AI助手和机器人必须理解非言语声
要局限于表面级别的识别——捕捉发生了什么,但不涉及为什么
音,才能在现实环境中有效协作。
本发生、它意味着什么或它是如何在特定情境中展开的。我提议将近期在听觉人工智能领域的进展推动了广泛任务
听觉智能的概念重新定义为一个分层的、环境化的处理过程,包
译括感知、推理和交互。为了实现这一观点,我引入了四个认知启的显著进步。声音事件检测(SED)已成为一项基础能
中发的任务范式——ASPIRE、SODA、AUX和AUGMENT力,支持诸如AI驱动感知、智能环境和生物声学监测
1——这些结构涵盖了时间-频率模式字幕生成、层次事件/场景描[4]–[10]等应用。除了SED,大量研究涵盖了自动语音识
v述、因果解释以及目标驱动的解读。总体而言,这些范式为更通
9别(ASR)和说话人识别/验证[11]–[20]、声音事件识别
2用化、可解释性和与人类一致的听觉智能提供了一条路线图,并[21]–[25]以及声音事件定位与检测(SELD)[26]–[29]。
8旨在促进关于机器如何理解声音这一问题的更广泛讨论。
7IndexTerms—听觉智能,机器听觉,声学识别,声音理新兴领域如自动化音频字幕生成(AAC)[30]–[32]、音
0
.解,可解释音频,多模态接地频问答、少量样本生物声学检测[33],[34]和人类听觉
8
0感知的计算建模[35]–[37]进一步扩展了听觉智能的范
5I.介绍围。与此同时,基于文本或标签条件的生成模型在声音
2
:大型语言模型(LLMs)通过自动化重复和繁琐的合成方面获得了关注[38]–[40],为声音表示学习和多模
v
i任务显著增强了人类的能力[1]–[3]。通过简单的文本或态融合开辟了新的方向。
x
r语音提示,它们可以生成想法、协助研究、创建视觉内尽管这些进展巩固了机器听觉的基础,许多当前的
a
容,并进行类似人类的对话。多模态扩展现在不仅可以方法仍局限于表面级别的识别——识别发生了什么,而
通过文本进行交互,还可以通过图像和实时视频进行交不理解为什么会发生、意味着什么或如何与更广泛的感
互,利用智能手机的摄像头和显示屏来解释视觉输入。知和社会背景相关联[4]。这些限制表明我们对听觉智
尽管在视听理解方面取得了快速进展,但它们与声音的能的理解仍然不够具体,并促使向更多基于认知、情境
互动仍然主要限于语音:当前系统可以识别和合成语感知的框架转变。
音,但无法可靠地理解非语音音频,如音乐、环境音景
本文将听觉智能重新定义为一种分层的、情境化的
或日常声学事件。
理解形式,而不是一组特定任务的认知能力。我认为,
设想始终在线的大型语言模型,能够解读周围的
您可能关注的文档
- 在生成手语中表达情感的挑战与机遇.pdf
- 通过混合异常检测保障生成式 AI 在临床前成像中的应用安全.pdf
- 元离线策略估计.pdf
- 弥散盲点:使用扩散模型合成子宫 MRI.pdf
- 尚未对心灵应用 AlphaFold:评估 Centaur 作为合成参与者的能力.pdf
- 多智能体系统在化学工程中的应用:综述与展望.pdf
- GPU 加速的量子 LDPC 码综合解码低于 63 微秒延迟阈值.pdf
- 推荐 菜肴趁热吃更佳.pdf
- 混合现实辅助成人注意缺陷多动障碍症状的挑战.pdf
- 半导体微结构的形态学分析使用骨架图.pdf
- 分割与理解:区域感知语义注意力用于基于大型语言模型的细粒度图像质量评估.pdf
- SwarmVLM:由 VLM 引导的阻抗控制实现异构机器人在动态仓库中的自主导航.pdf
- 黑色素瘤生长的有限元三维模型及在 6GHz 下黑色素瘤介电特性的时间依赖背散射数据.pdf
- 解剖结构感知的低剂量 CT 去噪通过预训练视觉模型和语义引导对比学习.pdf
- SASST: 利用语法感知切分和大语言模型进行同步语音翻译.pdf
- 一个实验性的水库增强基础模型:6G O-RAN 案例研究.pdf
- Dream4D:将摄像头控制的 I2V 提升至时空一致的 4D 生成.pdf
- UniSVG:用于多模态大语言模型理解与生成矢量图形的统一数据集.pdf
- 机器人与天车协作方案以增强负载操作能力.pdf
- 得分导向的 BiLSTM 修正用于自动钢琴转录中 MIDI 力度的优化.pdf
最近下载
- 悬架零件部开发.pdf VIP
- 建筑工程图集 L13S2给水工程_08.pdf VIP
- 汽车副车架总成技术条件.pptx VIP
- 低压配电设计规范演示文稿.ppt VIP
- 2025上半年中级软件水平考试《软件设计师(综合知识)》新版真题卷(含详细解析).docx VIP
- 整车集成设计指南(冷却系统布置).pptx VIP
- 销售人员必备贵州省黔西市兴仁县医疗机构分布明细.doc VIP
- 2025年新版人教版四年级上册英语 四上Unit 4 Helping in the community单元整体教学设计.pdf VIP
- 销售人员必备贵州省黔西市卫生室医务室及诊所医疗机构明细.doc VIP
- 路基路面弯沉检测记录表.docx VIP
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)