基于多模态的音视定位与分割研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

摘要

随着深度学习技术的发展,多模态学习因其丰富的信息表达能力在学术界日

益受到重视,特别是基于多模态的音视定位与分割任务已经成为计算机领域的重

要研究方向。在通信技术飞速发展的当下,海量的视频为音视定位与分割任务研

究提供了丰富的多模态数据支持,方便研究者在视频数据的基础上构建深度学习

算法,以实现对多模态场景中声源物体的精确定位与分割。尽管互联网上海量的

视频数据唾手可得,但在不依赖大量人工标注的情况下有效利用这些数据仍是音

视定位与分割任务面临的一项主要挑战。除此之外,现有的音视定位与分割算法

模型在精度上尚有欠缺,对于复杂音视场景的处理能力有限,这些都是该领域亟

需解决的问题。针对上述问题,本研究从无监督学习,跨模态对齐,提示词学习

等多个角度开展了一系列基于多模态的音视定位与分割研究,主要工作如下:

(1)对于音视定位任务提出无监督发声像素学习算法。该算法旨在无监督条

件下尽可能提升模型音视定位精度,实现像素级别的精确音视定位。具体而言,该

算法首先采用多实例对比学习进行自监督训练,对齐音视两个模态特征,并通过

音视特征计算相似度的方式得到粗粒度定位图。随后该算法通过邻域关系挖掘学

习到邻接关系矩阵,并使用随机游走策略根据邻接关系矩阵优化定位图。为了提

升推理效率,该算法还设计了一个用于推理的轻量级网络,使用蒸馏的方式承接

定位知识。通过实验验证,该算法模型在AVSBench-S4,VGGSound两个视频数

据集上取得了最好的音视定位性能。

(2)对于音视分割任务提出音频提示声源分割算法。该算法通过提示词学习

结合视觉大模型SAM,充分利用其在语义分割任务强大的视觉先验显著提升了模

型在复杂音视场景下的分割能力。具体而言,该算法通过融合视觉提示信息,显示

音频提示信息,隐式音频提示信息构造提示词。多模态信息的融合确保了提示词

具有丰富的信息密度,另外隐式音频信息的引入保证了音频模态在提示词中的主

导地位,有助于缓解模型盲目分割问题。通过实验验证,该算法模型在AVSBench

数据集的三个子集上都取得了不错的音视分割效果。

本文深入探讨了基于多模态的音视定位与分割任务,并针对该领域现存的挑

战,提出了高精度的音视定位与分割解决方案,提升了模型对复杂音视场景的处

理能力,为多模态学习领域的理论与应用发展做出了贡献。

关键词:音视定位,音视分割,多模态学习,无监督学习,提示词学习

I

ABSTRACT

ABSTRACT

Withthedevelopmentofdeeplearning,multi-modallearningbecomesapopularre-

searchdomainduetoitspowerfulpresentationinformationability,particularlyinaudio-

visuallocalizationandsegmentationtask.Therapidprogressionofcommunicationtech-

nologieshaveprovidedmassivevideodata,whichsimplifiestheconstructionofdeep

learningalgorithmsforpreciseaudio-visuallocalizationandsegmentation.Despitethe

abundanceofvastvideodata,effectivelyexploitingthesevideoswithoutmanualannota-

tionistheprimarychallenge.Additionally,currentmethodsoftenstruggleprecisionon

complexscenes.Toaddressthesechallenges,thisthesisconductsanexhaustiveinvesti-

gationinaudio-visuallocalizationan

文档评论(0)

精品资料 + 关注
实名认证
内容提供者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档