基于不规则区域预测和控制点矫正的场景文字检测与识别.pdfVIP

下载本文档

31
0
约7.12万字
约 63页
2020-11-11 发布于江苏
举报

基于不规则区域预测和控制点矫正的场景文字检测与识别.pdf

基于不规则区域预测和控制点矫正的场景文本检测与识别摘要文字作为信息交流的媒介，在人类文明社会具有非常重要的意义。自然场景中，文字无处不在，场景文字识别作为计算机视觉中的一项基本问题，在许多任务上体现出巨大价值。例如，可用于拍照翻译、账单票据快速识别、车牌识别、无人超市等实际问题中。相比文档识别，场景文字在光照，拍照角度，复杂背景，遮挡甚至存在大量不规则文字等因素影响下，识别存在更大的挑战。随着深度学习在计算机视觉多个领域取得成功，基于深度学习的方法也大量应用在场景文字识别上。近年来，虽然基于深度学习的场景文字识别方法也取得了相当的进步，但对于不规则的场景文本识别还具有较大挑战。本文研究内容针对不规则的场景文本，在文字检测方向上，引入文本行边界解决不规则区域的预测问题；文字识别方面，加强了控制点预测能力，从而提高对不规则文本矫正效果。文字检测的目标就是给出图像中文字的位置（可以是字符级别，单词级别或者是文本行级别）。文本定位，一般是用矩形框进行包裹，但这对不规则文本的检测有很大误差，会将无用背景及其它文本行文字也检测进去，对后续识别有很大影响。本文基于语义分割的方式，通过引入文本内外边界行，可以检测任意不规则形状的场景文本。文本识别的目标就是给定只有单行文本的图片，识别出其中的文字内容。对于不规则文本（如曲线文本），基于CRNN 的方法就会出错。一般做法是在识别前加入一个矫正网络，使不规则文本变为规则，然后再进行识别。本文矫正网络基于ASTER ，对其控制点定位网络进行了两项改进。一是利用SynthText 数据集构造控制点标签，使控制点的预测成为监督学习；二是考虑到控制点之间存在依赖关系，将控制点的预测当成序列问题，使用RNN 来捕获这种依赖关系。对于网络识别部分，我们采用的是基于注意力机制的编码器-解码器模型，该模型对 I 规则文本有很好的识别效果，同时我们还展示了该模型直接将多语言的图片识别成中文简体的能力。端到端文本识别的目标是，对于给定可能有多行文本的图片，检测出所有的文本行并识别出其内容。本文结合我们对不规则场景文本检测和识别的研究，设计了不规则场景文字识别的端到端系统。由于我们的检测器可以提供紧密的文本行包围框，在送入识别器前可以去除无效背景，同时，我们会对文本行求一个最小外接矩形框，然后进行仿射变换，减少了文本的不规则程度，有利于更好地预测控制点，进而提高不规则文本的矫正效果和识别准确率。关键词：深度学习；场景文本；文字检测；文字识别；不规则文本；控制点 II Scene text detection and recognition based on irregular area prediction and control point correction Abstract As a medium of information exchange, written text is of great significance in human civilization. Text is ubiquitous in natural scenes, and scene text recognition as a research topic in computer vision appears its important value in many tasks. For example, it can be used in instant camera translation, invoice recognition, license plate recognition, and unmanned supermarkets. Compared with document recognition, s

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于不规则区域预测和控制点矫正的场景文字检测与识别.pdfVIP