基于深度学习的图像字幕算法研究与应用.pdfVIP

  • 0
  • 0
  • 约8.31万字
  • 约 60页
  • 2026-03-09 发布于江西
  • 举报

基于深度学习的图像字幕算法研究与应用.pdf

摘要

图像字幕自动生成任务的研究近年来被学术界广泛关注。然而,计算机自

动生成的字幕不仅需要符合图像内容,还需要符合人类的语言逻辑,因此使得

这个研究课题极具挑战性。受机器翻译任务的启发,目前主流的图像字幕自动

生成模型遵循编码-解码的架构。其中,模型的编码端主要采用卷积神经网络提

取图像特征向量,而模型的解码端主要采用循环神经网络、长短时记忆网络等

文本生成算法来生成与图像内容相关的字幕。但是现有的图像字幕自动生成算

法存在未充分利用图像的全局特征以及参数过多,生成字幕的准确性和连贯性

较差等问题。对此,本文对传统的图像字幕自动生成算法进行了改进,建立了

基于双重注意力机制(DualAttentionMechanisms)的编码-解码架构的图像字幕

自动生成模型,即DAM模型。

本文的主要研究内容如下:

(1)针对现有算法无法捕捉图像全局依赖,提取显著性特征等问题,本文

提出了一种基于注意力机制的图像特征提取算法。具体的,运用DenseNet169预

训练神经网络提取图像的初始特征并进行矢量化,然后引入多头注意力机制和

门控注意力机制对图像初始特征进行修正,最终得到具有显著性和全局性的图

像特征及其矢量表示。

(2)针对现有算法生成的字幕准确性和连贯性较差等问题,本文提出了一

种基于门控注意力机制的Transformer模型,并将其作为DAM模型的解码端。

在避免出现长依赖、梯度爆炸等问题的同时,也通过门控注意力机制过滤掉图

像特征与字幕信息之间不相关的注意力结果,增强图像与字幕之间的内在联系,

进而生成符合图像内容,具有连贯性和逻辑性的字幕。

(3)本文在Flickr8k数据集上进行了消融分析,分别验证了基于注意力机

制的图像特征提取算法以及基于门控注意力机制的Transformer模型对DAM

模型生成字幕的影响。此外,还在Flickr30k和COCO2014数据集上展开了对比

实验,结果表明,DAM模型不仅能够生成具有准确性、连贯性和符合逻辑的图

像字幕,同时与传统的图像字幕模型相比,它的模型结构更加简单,所需参数

更少。

关键词:图像字幕自动生成算法,注意力机制,编码-解码架构,Transformer模

型,DenseNet169网络

Abstract

Thestudyofautomaticimagecaptiongenerationhasreceivedmuchattentionfrom

researchersinrecentyears.However,allowingcomputerstoautomaticallygenerate

captionsneedstoconformnotonlytoimagecontentbutalsotohumanlinguisticlogic,

thusmakingthisresearchtopicverychallenging.Inspiredbymachinetranslation,the

mainstreamautomaticimagecaptiongenerationmodelsfollowanencoder-decoder

architecture.Theencoderofthemodelmainlyadoptsconvolutionalneuralnetworksto

extractimagefeaturevectors,whilethedecoderofthemodelmainlyadoptstext

generatorssuchasrecurrentneuralnetworksorlongshort-termmemorynetworksto

generatecaptionsrelatedtoimagecontent.However,theexistingautomaticimage

captiongenerationalgorithmshavetheproblemsofnotmakingfullu

文档评论(0)

1亿VIP精品文档

相关文档