- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
摘要
随着深度学习技术的发展,多模态学习因其丰富的信息表达能力在学术界日
益受到重视,特别是基于多模态的音视定位与分割任务已经成为计算机领域的重
要研究方向。在通信技术飞速发展的当下,海量的视频为音视定位与分割任务研
究提供了丰富的多模态数据支持,方便研究者在视频数据的基础上构建深度学习
算法,以实现对多模态场景中声源物体的精确定位与分割。尽管互联网上海量的
视频数据唾手可得,但在不依赖大量人工标注的情况下有效利用这些数据仍是音
视定位与分割任务面临的一项主要挑战。除此之外,现有的音视定位与分割算法
模型在精度上尚有欠缺,对于复杂音视场景的处理能力有限,这些都是该领域亟
需解决的问题。针对上述问题,本研究从无监督学习,跨模态对齐,提示词学习
等多个角度开展了一系列基于多模态的音视定位与分割研究,主要工作如下:
(1)对于音视定位任务提出无监督发声像素学习算法。该算法旨在无监督条
件下尽可能提升模型音视定位精度,实现像素级别的精确音视定位。具体而言,该
算法首先采用多实例对比学习进行自监督训练,对齐音视两个模态特征,并通过
音视特征计算相似度的方式得到粗粒度定位图。随后该算法通过邻域关系挖掘学
习到邻接关系矩阵,并使用随机游走策略根据邻接关系矩阵优化定位图。为了提
升推理效率,该算法还设计了一个用于推理的轻量级网络,使用蒸馏的方式承接
定位知识。通过实验验证,该算法模型在AVSBench-S4,VGGSound两个视频数
据集上取得了最好的音视定位性能。
(2)对于音视分割任务提出音频提示声源分割算法。该算法通过提示词学习
结合视觉大模型SAM,充分利用其在语义分割任务强大的视觉先验显著提升了模
型在复杂音视场景下的分割能力。具体而言,该算法通过融合视觉提示信息,显示
音频提示信息,隐式音频提示信息构造提示词。多模态信息的融合确保了提示词
具有丰富的信息密度,另外隐式音频信息的引入保证了音频模态在提示词中的主
导地位,有助于缓解模型盲目分割问题。通过实验验证,该算法模型在AVSBench
数据集的三个子集上都取得了不错的音视分割效果。
本文深入探讨了基于多模态的音视定位与分割任务,并针对该领域现存的挑
战,提出了高精度的音视定位与分割解决方案,提升了模型对复杂音视场景的处
理能力,为多模态学习领域的理论与应用发展做出了贡献。
关键词:音视定位,音视分割,多模态学习,无监督学习,提示词学习
I
ABSTRACT
ABSTRACT
Withthedevelopmentofdeeplearning,multi-modallearningbecomesapopularre-
searchdomainduetoitspowerfulpresentationinformationability,particularlyinaudio-
visuallocalizationandsegmentationtask.Therapidprogressionofcommunicationtech-
nologieshaveprovidedmassivevideodata,whichsimplifiestheconstructionofdeep
learningalgorithmsforpreciseaudio-visuallocalizationandsegmentation.Despitethe
abundanceofvastvideodata,effectivelyexploitingthesevideoswithoutmanualannota-
tionistheprimarychallenge.Additionally,currentmethodsoftenstruggleprecisionon
complexscenes.Toaddressthesechallenges,thisthesisconductsanexhaustiveinvesti-
gationinaudio-visuallocalizationan
文档评论(0)