- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
图像描述生成是一项结合了计算机视觉和自然语言处理的任务,对于给定图
像,要求算法根据图像内容自动生成可以描述图像内容的自然语言。该任务在图
像辅助理解、图文互搜等领域具有较强的实用价值。近年来,针对如何高效利用
图像卷积特征以生成更好的描述语句成为图像描述生成任务的重要研究方向。本
文在当前图像描述生成方法的基础上,从特征组合以及高级语义信息的利用上进
行了相关研究:
1) 基于类激活映射机制的图像描述生成方法。本文在现有图像描述生成框
架中引入类激活映射机制,提出了基于类激活映射注意力机制的图像描述生成框
架(Class Activation Mapping-Attention ,CAMA ),在生成单词与卷积特征之间建
立联系,以实现卷积特征能够与生成单词更好的语义对齐。与其他使用基于空间
的特征表达不同,在注意力机制计算之前,就对卷积特征进行组合以得到更合适
准确的特征表达,在当前软注意力框架基础上引入类激活映射机制,利用类激活
映射机制重新组合由卷积神经网络得到的图像卷积特征。而在图像描述生成部分,
为了使解码模块适应类激活映射机制算法,采用双层长短时记忆网络,充分利用
图像的全局特征和局部特征,有效提高模型的表达能力。通过MSCOCO、Flickr8k 、
Flickr30k 数据集实验结果对比,对照当前主流模型有较为明显提升,其中
MSCOCO 上训练的基于ResNet-50 的模型在Bleu-2 指标上相对于Soft-attend 模
型提升了7.3% ,在Bleu-3 指标上相对m-RNN 模型提升了 10.8%,在Bleu-4 指
标上相对NIC 模型提升了2.5% 。
2) 面向实体特征图像描述生成方法。在基于类激活映射注意力机制的图像
描述生成框架的基础上提出面向实体特征描述的图像描述生成方法,从给定图像
描述语句中挖掘其中的实体属性标注,并将实体特征引入到当前的编码器解码器
框架中来,相较于直接使用词向量聚类的方法,实体特征标注具有更明确的语义
信息,也具有更好的表现效果。公开数据集实验上的结果表明,具有明确语义关
系的标注得到的图像卷积特征具有更好的效果,明确语义语义信息的图像卷积特
征对于图像描述生成任务具有明显帮助,能够从整体上得到图像中物体之间相互
关系的语义信息,同时能够从细节得到图像中物体相关的信息。其中在MSCOCO
数据集上训练的面向实体特征描述的模型在Bleu-1 指标上相对于 Soft-attend 模
型提升了2.9% ,在Bleu-3 指标上相对于CAMA 模型提升了10.5%,在Bleu-4 指
标上相对于CAMA 模型提升了10.7%,在ROUGE_L 指标上相对于CAMA 模型
提升了3.9%,在CIDEr 指标上相对于CAMA 模型提升了9.4% 。
关键词:图像描述生成;视觉注意力机制;编码器-解码器框架;类激活映射机
制;长短时记忆网络
I
Abstract
Image caption is a task that combines computer vision and natural language
processing. For given image, the algorithm is required to automatically generate
understandable text based on the image content, which has strong practical value in the
fields of image-assisted understanding and mutual search of images and texts. In recent
years, Research on how to efficiently use image convolution features to generate better
description sentences has become an important research direction for image description
generation tasks. Based on the current
您可能关注的文档
- 基于离散数据的火灾温度场构建算法与应用研究.pdf
- 基于联盟链的云存储完整性审计机制研究.pdf
- 基于孪生RPN网络的目标跟踪研究.pdf
- 基于评论分析的群组推荐算法研究.pdf
- 基于轻量化卷积神经网络的目标检测.pdf
- 基于深度强化学习的多智能体协同算法研究.pdf
- 基于深度神经网络的提升机轴承故障诊断研究.pdf
- 基于生成对抗网络的遮挡目标识别.pdf
- 基于位置的社交网络中兴趣点推荐算法研究.pdf
- 基于新型群智能优化的孪生支持向量机.pdf
- 2025年人教版一年级数学下册图形思维训练挑战卷.docx
- 《老年痴呆患者非药物干预中健康教育干预的效果评估与优化研究》教学研究课题报告.docx
- 初中英语听力教学中的教学反思与改进研究教学研究课题报告.docx
- 《北方寒地水稻优质高产栽培技术对农业生产社会效益的影响研究》教学研究课题报告.docx
- 高中化学课程中教师数字能力培养与课程整合的探索教学研究课题报告.docx
- 基于学习分析技术的小学音乐课堂教学干预策略研究教学研究课题报告.docx
- 初中英语口语人工智能资源游戏化激励模式分析教学研究课题报告.docx
- 竞赛数学视角下高中数学教学评价方式的创新与实践教学研究课题报告.docx
- 2024年贵州贵阳市花溪区人民医院招聘4人笔试高频难、易错点备考题库带答案详解.docx
- 《中西医结合治疗类风湿关节炎的疗效与患者疾病康复效果评估方法研究进展总结与综述》教学研究课题报告.docx
最近下载
- GB50209-2010建筑地面工程施工质量验收规范(新).pdf VIP
- 新苏教版六年级科学上册 第一单元《物质的变化》测试卷(A卷).docx VIP
- 2025年中国便利店发展报告.pptx VIP
- 新苏教版六年级科学上册第一单元《物质的变化》测试卷及答案.pdf VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 住院患者跌倒护理风险评估与护理指导意见.pdf VIP
- 煤矿用防爆电气设备防爆检查标准-培训课件.pptx
- 半导体物理学(第8版)刘恩科课后习题答案解析.pdf
- 新媒体背景下信息技术的发展及其应用分析.pdf VIP
- 一种大吨位玄武岩纤维锚索整体张拉试验系统及试验方法.pdf VIP
文档评论(0)