基于注意力机制的图像描述生成技术研究.pdfVIP

下载本文档

101
0
约10.12万字
约 66页
2020-09-20 发布于江西
举报
版权申诉

基于注意力机制的图像描述生成技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要图像描述生成是一项结合了计算机视觉和自然语言处理的任务，对于给定图像，要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图像辅助理解、图文互搜等领域具有较强的实用价值。近年来，针对如何高效利用图像卷积特征以生成更好的描述语句成为图像描述生成任务的重要研究方向。本文在当前图像描述生成方法的基础上，从特征组合以及高级语义信息的利用上进行了相关研究： 1) 基于类激活映射机制的图像描述生成方法。本文在现有图像描述生成框架中引入类激活映射机制，提出了基于类激活映射注意力机制的图像描述生成框架（Class Activation Mapping-Attention ，CAMA ），在生成单词与卷积特征之间建立联系，以实现卷积特征能够与生成单词更好的语义对齐。与其他使用基于空间的特征表达不同，在注意力机制计算之前，就对卷积特征进行组合以得到更合适准确的特征表达，在当前软注意力框架基础上引入类激活映射机制，利用类激活映射机制重新组合由卷积神经网络得到的图像卷积特征。而在图像描述生成部分，为了使解码模块适应类激活映射机制算法，采用双层长短时记忆网络，充分利用图像的全局特征和局部特征，有效提高模型的表达能力。通过MSCOCO、Flickr8k 、 Flickr30k 数据集实验结果对比，对照当前主流模型有较为明显提升，其中 MSCOCO 上训练的基于ResNet-50 的模型在Bleu-2 指标上相对于Soft-attend 模型提升了7.3% ，在Bleu-3 指标上相对m-RNN 模型提升了 10.8%，在Bleu-4 指标上相对NIC 模型提升了2.5% 。 2) 面向实体特征图像描述生成方法。在基于类激活映射注意力机制的图像描述生成框架的基础上提出面向实体特征描述的图像描述生成方法，从给定图像描述语句中挖掘其中的实体属性标注，并将实体特征引入到当前的编码器解码器框架中来，相较于直接使用词向量聚类的方法，实体特征标注具有更明确的语义信息，也具有更好的表现效果。公开数据集实验上的结果表明，具有明确语义关系的标注得到的图像卷积特征具有更好的效果，明确语义语义信息的图像卷积特征对于图像描述生成任务具有明显帮助，能够从整体上得到图像中物体之间相互关系的语义信息，同时能够从细节得到图像中物体相关的信息。其中在MSCOCO 数据集上训练的面向实体特征描述的模型在Bleu-1 指标上相对于 Soft-attend 模型提升了2.9% ，在Bleu-3 指标上相对于CAMA 模型提升了10.5%，在Bleu-4 指标上相对于CAMA 模型提升了10.7%，在ROUGE_L 指标上相对于CAMA 模型提升了3.9%，在CIDEr 指标上相对于CAMA 模型提升了9.4% 。关键词：图像描述生成；视觉注意力机制；编码器-解码器框架；类激活映射机制；长短时记忆网络 I Abstract Image caption is a task that combines computer vision and natural language processing. For given image, the algorithm is required to automatically generate understandable text based on the image content, which has strong practical value in the fields of image-assisted understanding and mutual search of images and texts. In recent years, Research on how to efficiently use image convolution features to generate better description sentences has become an important research direction for image description generation tasks. Based on the current