多语言图像标题自动生成研究.docVIP

下载本文档

6
0
约1.24万字
约 21页
2021-01-06 发布于北京
举报
版权申诉

多语言图像标题自动生成研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多语言图像标题自动生成研究摘要：自动描述图像的内容是结合了计算机视觉和自然语言处理的人工智能的一个基本问题。而机器翻译(又称自动翻译)是利用计算机将一种自然语言转换为另一种自然语言的过程，是人工智能的一大终极目标。若将两者结合利用，必将具有重要的实用价值。 Show and tell模型是Google Brain在TensorFlow上开源的一个自动图像描述系统，采用Encoder-Decoder(编码器-解码器)的神经网络架构，可以根据图像中的场景自动生成相应的描述。本文将深入分析Show and tell模型和相关基于Show and tell模型的改进技术以及神经机器翻译的相关技术，并且对比各类技术的优缺点。本文通过该系统实现Image Caption(自动图像描述)，并通过神经机器翻译的方法Transformer将得到的描述翻译为中文，使其适用于中文环境。最后对所采用的Transformer方法与Google机器翻译方法进行性能评价。关键词：自动图像描述;机器翻译;翻译方法;模型前言 Image Caption技术(即自动描述图像内容技术，也称图像标注)，指的就是从给定图片中自动生成一段能够描述其内容的文字，有点类似于我们小学里学的看图说话。对于人类来说，这是一件简单并且每天都在做的事，然而对于计算机来说，这是一件非常具有挑战性的任务。原因在于计算机面对的不是人们眼睛所看到的景象，而是一个像素矩阵。计算机不仅要在一堆数字中检测出图像中的物体，而且还要理解各个物体之间的相互关系，最终需要用一段文字将一切表述出来。 Machine Translation技术(即机器翻译技术)，顾名思义，就是利用机器来进行翻译的技术，用于不同语言文字之间的转换。 60年来，机器翻译技术不断发展，从最早的词典匹配、到基于词典和语言学知识的规则翻译、再到基于短语的统计机器翻译，最后成长为当前基于人工神经网络的机器翻译。随着计算机计算性能的提升以及大数据时代多语言信息的爆炸式增长，机器翻译技术已渐渐完善，开始在人们的日常生活中扮演一个重要角色，为我们提供便捷的翻译服务。得益于神经机器翻译的迅速发展，看似困难的机器看图说话任务迎刃而解。在Image Caption任务中仅仅对神经机器翻译中模型做了简单的修改，便取得了很好的结果。本文主要以Google的基于TensorFlow的show and tell自动图像描述系统为研究对象，并与两种机器翻译方法相结合来完成多语言图像标题自动生成的研究。深入分析了show and tell模型，并对比相关后续先进技术;对比分析Google机器翻译与Transformer翻译方法，并进行实验验证。本文完成的主要工作及创新点有： (1)利用show and tell自动图像描述系统，实现从图片生成描述。 (2)分析了Image Caption相关技术的特点。 (3)利用Google机器翻译以及Transformer翻译方法进行英译中。 (4)对给定语料进行人工标注，生成翻译参考语句。 (5)对比Google机器翻译和Transformer翻译方法的模型架构，并通过实验验证其性能。最后得出图片和多语言描述的匹配度，并进行错误分析。第一章绪论本章首先介绍了多语言图像标题自动生成的研究背景和意义，其次简单介绍了show and tell自动图像描述系统，并概述了本文所做的主要工作和贡献以及创新点，在本章的最后介绍了论文的组织结构。 1.1 研究背景和意义近年来，信息技术，人工智能不断发展，人们也通过科幻电影来对未来进行展望。电影《HER》就是一个例子，影片中的萨曼莎是一个AI系统，他能够理解主人公西奥多的手机信息和图像内容，了解主人公的状态，在其心情不好时可以陪他谈心，还可以读懂文字，她俨然成为了一个真实的人类，甚至在某些方法还更胜人类。电影的萨曼莎是人类幻想出来的人工智能，她能够思考，同时具备比人还强的智力以及运算能力，虽然目前的人工智能技术还不能完全像电影中一样强大，但近年来人工智能技术让机器具备了人来的能力，例如计算机已经能理解更高层次的图像内容，能够自动描述图像的内容。在人工智能领域，这是机器的 Image Captioning(自动图像描述)能力。在去年11月7日晚，锤子科技发布了坚果 Pro 2。这场发布会感动我的不是坚果Pro 2超高颜值的外观设计，亦或是极具良心的售价，而是锤子坚果Pro 2 新的 Smartisan OS系统，针对盲人用户做出的优化。锤子利用OCR识别技术，把普通手机APP 无法识别的内容通过