基于深度学习的图像字幕算法研究与应用.pdfVIP

下载本文档

0
0
约8.31万字
约 60页
2026-03-09 发布于江西
举报

基于深度学习的图像字幕算法研究与应用.pdf

摘要

图像字幕自动生成任务的研究近年来被学术界广泛关注。然而，计算机自

动生成的字幕不仅需要符合图像内容，还需要符合人类的语言逻辑，因此使得

这个研究课题极具挑战性。受机器翻译任务的启发，目前主流的图像字幕自动

生成模型遵循编码-解码的架构。其中，模型的编码端主要采用卷积神经网络提

取图像特征向量，而模型的解码端主要采用循环神经网络、长短时记忆网络等

文本生成算法来生成与图像内容相关的字幕。但是现有的图像字幕自动生成算

法存在未充分利用图像的全局特征以及参数过多，生成字幕的准确性和连贯性

较差等问题。对此，本文对传统的图像字幕自动生成算法进行了改进，建立了

基于双重注意力机制（DualAttentionMechanisms）的编码-解码架构的图像字幕

自动生成模型，即DAM模型。

本文的主要研究内容如下：

（1）针对现有算法无法捕捉图像全局依赖，提取显著性特征等问题，本文

提出了一种基于注意力机制的图像特征提取算法。具体的，运用DenseNet169预

训练神经网络提取图像的初始特征并进行矢量化，然后引入多头注意力机制和

门控注意力机制对图像初始特征进行修正，最终得到具有显著性和全局性的图

像特征及其矢量表示。

（2）针对现有算法生成的字幕准确性和连贯性较差等问题，本文提出了一

种基于门控注意力机制的Transformer模型，并将其作为DAM模型的解码端。

在避免出现长依赖、梯度爆炸等问题的同时，也通过门控注意力机制过滤掉图

像特征与字幕信息之间不相关的注意力结果，增强图像与字幕之间的内在联系，

进而生成符合图像内容，具有连贯性和逻辑性的字幕。

（3）本文在Flickr8k数据集上进行了消融分析，分别验证了基于注意力机

制的图像特征提取算法以及基于门控注意力机制的Transformer模型对DAM

模型生成字幕的影响。此外，还在Flickr30k和COCO2014数据集上展开了对比

实验，结果表明，DAM模型不仅能够生成具有准确性、连贯性和符合逻辑的图

像字幕，同时与传统的图像字幕模型相比，它的模型结构更加简单，所需参数

更少。

关键词：图像字幕自动生成算法，注意力机制，编码-解码架构，Transformer模

型，DenseNet169网络

Abstract

Thestudyofautomaticimagecaptiongenerationhasreceivedmuchattentionfrom

researchersinrecentyears.However,allowingcomputerstoautomaticallygenerate

captionsneedstoconformnotonlytoimagecontentbutalsotohumanlinguisticlogic,

thusmakingthisresearchtopicverychallenging.Inspiredbymachinetranslation,the

mainstreamautomaticimagecaptiongenerationmodelsfollowanencoder-decoder

architecture.Theencoderofthemodelmainlyadoptsconvolutionalneuralnetworksto

extractimagefeaturevectors,whilethedecoderofthemodelmainlyadoptstext

generatorssuchasrecurrentneuralnetworksorlongshort-termmemorynetworksto

generatecaptionsrelatedtoimagecontent.However,theexistingautomaticimage

captiongenerationalgorithmshavetheproblemsofnotmakingfullu

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于深度学习的图像字幕算法研究与应用.pdfVIP