图像中的文本检测与识别.docVIP

下载本文档

161
0
约1.25万字
约 13页
2018-09-13 发布于广东
举报
版权申诉

图像中的文本检测与识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图像中的文本检测与识别 PAGE PAGE 2 图像中的文本检测与识别摘要这篇文章分析、比较和对比了在彩色图像中文本检测与识别研究的技术挑战、方法和性能。它总结了基础的问题和列举了当解决这些问题时应当被考虑的因素。现有的技术分类不是逐步的就是集成的，而且包括文本定位、验证、分割和识别的子问题是突出的。关于增强退化文本和处理影像文本与多重位向、透视失真和多语种文本的特殊问题也解决了。文本的分类与子分类加插图说明了，基准数据集一一列举了，大多数有代表性的方法的性能也做了比较。这种回顾提供了这个领域余留问题的一种基本的比较和分析。关键词：文本检测；文本定位；文本识别；调查引言 2003、2005、2011和2013年近期的“健壮的阅读”比赛的出现，连同2005至2013年基于成像的文档分析与识别（CBDAR）的一年两次的国际研讨会表明：在近年来，图像和影像中的文本检测与识别问题已经得到了越来越多的关注。移动设备上的应用程序的出现，包括实时将文本翻译成其它语言的iPone和安卓平台，不断刺激更新着在这些问题上的兴趣。这种趋势存在着几个主要的原因，包括越来越多的应用程序的需求。文本是最有表现力的通信方式之一，它可以植入文档或场景中作为交流信息的一种方式。这是通过使它“明显”和/或对其他人可读实现的。大量的“街景”数据的收集只是一种驱动程序。第二种因素是高性能的带有成像和计算能力的移动设备不断增加的可用性。这为图像的获得和随时随地的处理提供了一个机会，方便在不同环境中识别文本。第三种是计算机视觉和模式识别技术的进步，使得应对挑战性问题更可行。尽管许多科研人员认为光学字符识别（OCR）是一种已解决的问题，但图像文本检测与识别和较低质量或退化数据导致的计算机视觉和模式识别问题一样具有很多相同的障碍。正如目前最先进方法的低检测率（经常低于80%）和低识别率（经常低于60%）所暗示的那样，研究还有很大的空间。相比之下，OCR一般能实现扫描文档的识别率达到99%以上。复杂的背景、文本布局和字体的变化、光照不均、低分辨率和使用多种语言的环境呈现了比干净、格式良好的文档更大的挑战。解决这些问题需要先进的计算机视觉和模式识别技术的应用。许多检测和识别场景图像文本的方法已被提出，然而我们对过去5年中关于这个主题的全面调查却还不清楚。关于文本提取和基于成像的文档分析的两项调查已经在进行了，但大多数文献是在2003前发表的。大部分已发布的作品自那时起使当前技术水平有了增量式的进步，因此为未来的工作建立一条基线仍然是重要的。本文尝试通过提供一项文本检测与识别研究的全面的文献调查来建立这条基线。我们总结了问题和子问题、检查了应用程序并分析了挑战。然后我们定义了不同的分类来对比典型的方式和方法。我们也通过在公开的数据集中报告典型方法的性能来突出当前技术水平。本文组织如下：第一章剩余部分总结了问题和过去10年的进展。第二章分析了相关的背景。第3、4、5章节提出了方法、子问题和相关问题。第6章提供了数据集和评估，第7章总结了全文包括关于剩余问题和未来方向的讨论。问题的概述尽管文本的识别产生了许多应用程序，但根本的目标还是去确定给定的图像中是否有文本，如果有，就检测、定位和识别它。在本文中，这些根本任务的不同阶段有不同的名字，包括：旨在确定候选文本的图像位置的文本定位，用定位和验证程序确定是否有文本的文本检测，专注于定位与二值化的文本增强。例如文本增强这个任务用于改正失真文本或者在识别之前提高分辨率。其它的参考资料包括了场景文本识别和野外的文本识别，这些都限制了自然场景中的图像文本分析。简单地说，文本检测、定位和识别的基本目标对于“端到端”系统是至关重要的。过去十年的进展总结早期的文本检测与识别研究是文档分析与检测研究的自然延伸，从扫描页面图像到相机拍摄图像，专注于基本的预处理、检测和光学字符识别技术。近来，每个问题的相互联系的解决方案的实现促进了复杂的计算机视觉和学习方法的应用。将检测和识别任务整合到一个“端到端”的文本识别系统是一种趋势。在早期，研究人员广泛调查视频中的图像叠加文本，将其作为索引视频内容的一种方法。场景文本，特别是视频场景文本，被认为呈现出了一种更困难的挑战，然而对它所做的工作却很少。近来，研究人员已经探索出了方法，结果证明这些方法在不同的配置中捕捉文本，特别是在复杂背景中的附带文本是有效的。这些方法通常起源于先进的机器学习和优化方法，包括无人监督学习、卷积神经网络（CNN）、可变形的基于部件的模型（DPMs）、置信传播和条件随机域（CRF）。背景提供关于潜在问题、应用和技术挑战的背景信息对于理解文本检测与识别方法的整体价值是有用的。图像文本图形文本和场景文本被认为是文本的两种基本类别，其中前者指的是机器