结合状态空间模型和Transformer的时空增强视频字幕生成.pdfVIP

结合状态空间模型和Transformer的时空增强视频字幕生成.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第41卷第2期信号处理Vol.41No.2

2025年2月JournalofSignalProcessingFeb.2025

文章编号:1003-0530(2025)02-0279-11

结合状态空间模型和Transformer的时空增强

视频字幕生成

孙昊英李树一习泽宇毋立芳*

(北京工业大学信息科学技术学院,北京100124)

摘要:视频字幕生成(VideoCaptioning)旨在用自然语言描述视频中的内容,在人机交互、辅助视障人士、体育

视频解说等领域具有广泛的应用前景。然而视频中复杂的时空内容变化增加了视频字幕生成的难度,之前的方法

通过提取时空特征、先验信息等方式提高生成字幕的质量,但在时空联合建模方面仍存在不足,可能导致视觉信息

提取不充分,影响字幕生成结果。为了解决这个问题,本文提出一种新颖的时空增强的状态空间模型和

Transformer(SpatioTemporal-enhancedStatespacemodelandTransformer,ST2)模型,通过引入最近流行的具有全局

感受野和线性的计算复杂度的Mamba(一种状态空间模型),增强时空联合建模能力。首先,通过将Mamba与

Transformer并行结合,提出空间增强的状态空间模型(StateSpaceModel,SSM)和Transformer(SpatialenHanced

StatespacemodelandTransformermodule,SH-ST),克服了卷积的感受野问题并降低计算复杂度,同时增强模型提

取空间信息的能力。然后为了增强时间建模,我们利用Mamba的时间扫描特性,并结合Transformer的全局建模能

力,提出时间增强的SSM和Transformer(TemporalenHancedStatespacemodelandTransformermodule,TH-ST)。

具体地,我们对SH-ST产生的特征进行重排序,从而使Mamba以交叉扫描的方式增强重排序后特征的时间关系,最

后用Transformer进一步增强时间建模能力。实验结果表明,我们ST2模型中SH-ST和TH-ST结构设计的有效性,

且在广泛使用的视频字幕生成数据集MSVD和MSR-VTT上取得了具有竞争力的结果。具体的,我们的方法分别

在MSVD和MSR-VTT数据集上的绝对CIDEr分数超过最先进的结果6.9%和2.6%,在MSVD上的绝对CIDEr分数

超过了基线结果4.9%。

关键词:视频字幕生成;视频理解;状态空间模型;Transformer

中图分类号:TP391文献标识码:ADOI:10.12466/xhcl.2025.02.007

引用格式:孙昊英,李树一,习泽宇,等.结合状态空间模型和Transformer的时空增强视频字幕生成[J].信号处理,

2025,41(2):279-289.DOI:10.12466/xhcl.2025.02.007.

Referenceformat:SUNHaoying,LIShuyi,XIZeyu,etal.Spatiotemporalenhancementofvideocaptioningintegrating

astatespacemodelandTransformer[J].J

您可能关注的文档

文档评论(0)

你就是我的小鱼鱼 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年10月18日上传了教师资格证

1亿VIP精品文档

相关文档