基于深度学习的自然场景文字识别 (1).docxVIP

下载本文档

9
0
约5.23万字
约 79页
2020-03-10 发布于云南
举报
版权申诉

基于深度学习的自然场景文字识别 (1).docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据 A Dissertation Submitted to Zhejiang University for the Degree of Master of Engineering TITLE: Deep Learning Based Scene Text Recognition Author:Supervisor:Subject:College:Submitted Date:Pan Huang Author: Supervisor: Subject: College: Submitted Date: Pan Huang Prof Yusheng Liu Computer Technology Computer Science 2016. 1. 10 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人己经发表或撰写过的研究成果，也不包含为获得浙江大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 签字日期：Alb年3月仃日学位论文版权使用授权书本学位论文作者完全了解浙江大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被査阅和借阅。本人授权浙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。签字日期:年月日（保密的学位论文在解密后适用本授权书）学位论文作者签名：签字日期: 年月日签字日期：jlo/g年3月q 口浙江大学硕上学位论文 Abstract 浙江大学硕上学位论文 Abstract 万方数据万方数据浙江大学硕士学位论文摘要浙江大学硕士学位论文摘要万方数据万方数据摘要与一般的视觉元素不同，文字包含了丰富的高层语义信息，能够帮助计算机更为准确地解读图像内容。这对图像理解有着重要的学术意义。此外，工业界对自然场景中的文字识别技术也有着极人需求。文字识别技术在虚拟现实、人机交互、图像检索、无人驾驶、车牌识别、工业自动化等领域中有着广泛的应用。传统光字符识别技术(OCR)主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很髙的识别水平。与文档文字识别不同，自然场景中的文字识别则面临着图像背景复杂、分辨率底下、字体多样、分布随意等挑战，传统光学识别技术在此类情况下几乎无法被应用。作为大量相关技术的基础工作，自然场景文字识别的不断发展和突破具有深远的研究意义和实际价值。本文结合深度学习技术，提岀了一套针对自然场景文字的识别方法。本文主要工作如下：提出了基于CNN和BiRNN的、结合上下文的图像编码方法。利用CNN 从底层像素中获得高层视觉特征，并利用CNN局部感知特性建立起高层特征与底层像素的位置关系，然后利用BiRNN捕获图像全局信息。实验表明该编码方法具有良好的表达能力。提出了基于ARSG的文字解码方法，同时完成字符定位和文字识别功能。 ARSG利用RNN完成序列标注任务。并在逐字符分类过程中，利用注意力机制，对当前神经网络的关注点进行建模，从而得到每个字符在图像中的位置。同时，利用启发式规则和延迟生成技术，提高了识别的效率和精度。实验表明，该方法能够获得较好的字符定位和文字识别效果。实现了一套高效的深度学习框架。该框架能够支持多种神经网络结构，并提供了一系列行之有效的训练策略。利用该框架初步验证了基于深度学习的自然场景文字识别算法的有效性。实验表明，本文算法相对其它算法，泛化能力和识别精度有着明显的提升。关键词：文字识别，自然图像，深度学习，图像理解，高层语义 Abstract Different from common visual elements, text in natural scenes conveys rich information of high level semantics, which plays a key role in the scene understanding. In addition, in the industrial areas, there is a strong demand of the technique of text recognition in natural scene? Up to now, text recognition has been widely used in many fields,