基于多模态注意力机制的图像描述.pdfVIP

下载本文档

88
0
约13.51万字
约 77页
2020-09-09 发布于江西
举报
版权申诉

基于多模态注意力机制的图像描述.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文摘要摘要图像描述是连接计算机视觉和自然语言处理的基础任务，在人工智能领域有着广泛的应用。现有的图像描述算法普遍采用迁移学习提取图像特征，在生成描述语句时只使用视觉特征，导致生成的描述语句不够准确、丰富。另外基于注意力机制的图像描述算法模型结构复杂、训练难度较大。针对上述不足，本文提出基于多模态注意力机制的图像描述算法。首先基于图像描述数据集构造关键词类别、关键词数据集，通过关键词数据集训练基于关键词的图像特征抽取模型，提取到更准确的图像特征。然后本文分别提出了基于关键词注意力机制的图像描述算法和基于空间特征注意力机制的图像描述算法。基于关键词注意力机制的图像描述算法通过关键词引导描述语句的生成，能够克服生成的描述语句不丰富的缺点。基于空间注意力机制的图像描述算法利用高层图像特征生成描述语句，简化了模型的结构。最后，本文结合关键词注意力机制和空间注意力机制提出了基于多模态注意力机制的图像描述算法。其中，空间注意力机制能够获得更优的视觉特征，关键词注意力机制能够引导描述语句的生成，从而获到更加准确和更加丰富的图像描述语句。本文在 MSCOCO 数据集进行了大量实验以验证本文提出模型的有效性和准确性。实验结果表明本文提出的算法明显优于其他对比的图像描述算法。关键词：图像描述；计算机视觉；自然语言处理；多模态；注意力机制 I 英文摘要 Abstract Image caption is a fundamental task for connecting computer vision and natural language processing, and it’s applied extensively to the field of artificial inte igence. Existing image caption algorithms usua y extract features by leveraging transfer learning, and only the visual features are employed to generate the descriptions, making the generated descriptions are inaccurate and not rich. In addition, the image caption algorithms based on the attention mechanism are complex structure and difficult to train. In this paper, we propose an image caption algorithm based on multimodal attention. We firstly construct the keyword category and the keyword dataset based on the image caption datase