CN119672617A 基于时序跨模态设计Mamba的视听分割方法 (大连理工大学).docxVIP

  • 1
  • 0
  • 约1.58万字
  • 约 30页
  • 2026-06-09 发布于山西
  • 举报

CN119672617A 基于时序跨模态设计Mamba的视听分割方法 (大连理工大学).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119672617A

(43)申请公布日2025.03.21

(21)申请号202510192666.X

(22)申请日2025.02.21

(71)申请人大连理工大学

地址116024辽宁省大连市甘井子区凌工

路2号

(72)发明人诸葛云志龚思同张璐卢湖川

(74)专利代理机构辽宁鸿文知识产权代理有限

公司21102

专利代理师李宝元

(51)Int.Cl.

G06V20/40(2022.01)

G06V10/80(2022.01)

G06V10/82(2022.01)

G06N3/0464(2023.01)

G06N3/0455(2023.01)

权利要求书4页说明书10页附图2页

(54)发明名称

基于时序跨模态设计Mamba的视听分割方法

(57)摘要

CN119672617A一种基于时序跨模态设计Mamba的视听分割方法,先通过视觉和音频编码器对输入的视频和音频序列进行特征提取,得到多尺度的视觉和音频特征;其中,第2一4层级的视觉特征通过多尺度时序编码器处理得到增强后的视觉特征;增强后的视觉特征和原始的音频特征被送入模态聚合解码器,并通过视觉一音频选择性扫描模块分别进行帧内和帧间的视觉一音频跨模态融合,得到融合后的音频查询;第1

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档