基于细粒度语意感知的音频语意概述方法研究.pdf

下载文档

0
0
约10.7万字
约 63页
2025-05-25 发布于广东
举报
版权申诉
保障服务

基于细粒度语意感知的音频语意概述方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于细粒度语意感知的音频语意概述方法研究

摘要

音频语意概述是一项跨模态音频内容理解任务，是介于音频信号处理与自然语言文

本处理的交叉研究方向。作为一项新兴研究，音频语意概述主要通过人工智能方法，将

音频信号包含的场景内容，以自然语言文本形式进行概括性表述，使得机器具备理解音

频内容的能力。该项研究有助于辅助听力障碍人群认知生活环境的声学信息、构建智慧

城市建设的声学监控体系、推动人机交互技术的发展，但现有主流方法往往忽略音频包

含的局部事件信息，且其特征提取过程难以建模音频中的全局场景上下文信息，使得对

音频内容的表述精度有限。为解决上述问题，本文进行了音频语意信息的细粒度发掘与

利用，以提升音频语意概述表现，具体研究内容如下：

首先，提出了局部事件信息辅助的音频语意概述方法，以解决现有主流方法缺失局

部事件信息感知能力的问题。该方法构建了基于局部注意力机制的语意解码器结构，在

其中设计了未来信息掩码模块用以对输入的文本词向量进行序列化建模，并设计了局部

信息辅助的语意解码模块，通过构建局部感知窗，对音频特征中的局部区域进行重点关

注，从而感知其中可能包含的局部事件信息，将其解码转化为自然语言文本概述内容，

提升了音频语意概述性能与对局部事件信息表述的准确性。

其次，提出了基于图建模的音频语意概述方法，以解决现有主流方法的特征提取过

程难以建模音频全局场景时序上下文信息的问题。该方法构建了基于图特征表示的音频

特征编码器结构，设计了图学习特征表示模块，通过将音频特征划分为特征帧节点，构

建邻接图以学习音频帧节点间的上下文语意关联，并借助top-掩码机制过滤与音频场

景内容无关的音频特征帧节点关系，进而在节点聚合过程中突出了音频场景内容中的重

要语意信息，取得了更进一步的音频语意概述表现。

最后，提出了全局与局部信息融合的集成学习预测方法，以兼顾上述所提的两种方

法的优势，发掘和利用音频数据内与局部事件及全局场景时序相关的细粒度语意信息。

该方法被提交于国际权威声学赛事DCASE2022竞赛音频语意概述赛道，取得了公开测

试集国际第三、竞赛内部测试集国际第六的排名。充分说明了本文基于细粒度语意感知

的音频语意概述方法研究工作的有效性与优越性。

关键词：音频语意概述；细粒度语意感知；局部事件信息辅助；图学习表示；集成

学习

基于细粒度语意感知的音频语意概述方法研究

Abstract

Automatedaudiocaptioningisacross-modalaudiocontentunderstandingtaskthat

integratesaudiosignalprocessingandnaturallanguageprocessing.Itaimstosummarizethe

semanticcontentinaudiosignalsbythenaturallanguagetext,i.e.,caption.Thistaskcan

facilitateman-machineinteractionforthosewithhearingloss,soundanalysisforsecurity

surveillanceandautomaticcontentsummarizationforsmartcityconstruction.However,most

existingmethodsusuallyignorethelocalacousticeventinformationintheaudiofeatureswhen

decodingthemtogeneratethecaption.Moreover,thefeatureextractionprocessinthese

methodsisdifficulttomodeltheglobalcontextualsemanticcontentintheaudio,whichlimits

the

您可能关注的文档

文档评论（0）

拥有快乐的你 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于细粒度语意感知的音频语意概述方法研究.pdf