基于多模态的音视定位与分割研究.pdf

下载文档

4
0
约11.8万字
约 77页
2025-06-12 发布于江西
举报
版权申诉
保障服务

基于多模态的音视定位与分割研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

随着深度学习技术的发展，多模态学习因其丰富的信息表达能力在学术界日

益受到重视，特别是基于多模态的音视定位与分割任务已经成为计算机领域的重

要研究方向。在通信技术飞速发展的当下，海量的视频为音视定位与分割任务研

究提供了丰富的多模态数据支持，方便研究者在视频数据的基础上构建深度学习

算法，以实现对多模态场景中声源物体的精确定位与分割。尽管互联网上海量的

视频数据唾手可得，但在不依赖大量人工标注的情况下有效利用这些数据仍是音

视定位与分割任务面临的一项主要挑战。除此之外，现有的音视定位与分割算法

模型在精度上尚有欠缺，对于复杂音视场景的处理能力有限，这些都是该领域亟

需解决的问题。针对上述问题，本研究从无监督学习，跨模态对齐，提示词学习

等多个角度开展了一系列基于多模态的音视定位与分割研究，主要工作如下：

（1）对于音视定位任务提出无监督发声像素学习算法。该算法旨在无监督条

件下尽可能提升模型音视定位精度，实现像素级别的精确音视定位。具体而言，该

算法首先采用多实例对比学习进行自监督训练，对齐音视两个模态特征，并通过

音视特征计算相似度的方式得到粗粒度定位图。随后该算法通过邻域关系挖掘学

习到邻接关系矩阵，并使用随机游走策略根据邻接关系矩阵优化定位图。为了提

升推理效率，该算法还设计了一个用于推理的轻量级网络，使用蒸馏的方式承接

定位知识。通过实验验证，该算法模型在AVSBench-S4，VGGSound两个视频数

据集上取得了最好的音视定位性能。

（2）对于音视分割任务提出音频提示声源分割算法。该算法通过提示词学习

结合视觉大模型SAM，充分利用其在语义分割任务强大的视觉先验显著提升了模

型在复杂音视场景下的分割能力。具体而言，该算法通过融合视觉提示信息，显示

音频提示信息，隐式音频提示信息构造提示词。多模态信息的融合确保了提示词

具有丰富的信息密度，另外隐式音频信息的引入保证了音频模态在提示词中的主

导地位，有助于缓解模型盲目分割问题。通过实验验证，该算法模型在AVSBench

数据集的三个子集上都取得了不错的音视分割效果。

本文深入探讨了基于多模态的音视定位与分割任务，并针对该领域现存的挑

战，提出了高精度的音视定位与分割解决方案，提升了模型对复杂音视场景的处

理能力，为多模态学习领域的理论与应用发展做出了贡献。

关键词：音视定位，音视分割，多模态学习，无监督学习，提示词学习

ABSTRACT

Withthedevelopmentofdeeplearning,multi-modallearningbecomesapopularre-

searchdomainduetoitspowerfulpresentationinformationability,particularlyinaudio-

visuallocalizationandsegmentationtask.Therapidprogressionofcommunicationtech-

nologieshaveprovidedmassivevideodata,whichsimplifiestheconstructionofdeep

learningalgorithmsforpreciseaudio-visuallocalizationandsegmentation.Despitethe

abundanceofvastvideodata,effectivelyexploitingthesevideoswithoutmanualannota-

tionistheprimarychallenge.Additionally,currentmethodsoftenstruggleprecisionon

complexscenes.Toaddressthesechallenges,thisthesisconductsanexhaustiveinvesti-

gationinaudio-visuallocalizationan

您可能关注的文档

文档评论（0）

精品资料 + 关注: 实名认证

内容提供者

温馨提示：本站文档除原创文档外，其余文档均来自于网络转载或网友提供，仅供大家参考学习，版权仍归原作者所有，若有侵权，敬请原作者及时私信给我删除侵权文

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于多模态的音视定位与分割研究.pdf