基于目标检测网络的场景文字检测识别的研究与实现.pdfVIP

  • 31
  • 0
  • 约6.29万字
  • 约 52页
  • 2020-12-19 发布于江苏
  • 举报

基于目标检测网络的场景文字检测识别的研究与实现.pdf

基于目标检测网络的场景文字检测识别的研究与实现 摘 要 文字作为人与人交流或人与物体交互的重要形式之一,是一种能够提供信息 的重要元素。近年来,从场景中检测识别文字已经成为热点研究方向,其目的是 将场景中的文本图像通过算法翻译为字符文本,这种转换可以应用到很多的实际 应用项目中。相较于传统光学文本识别,基于深度学习的场景文字检测识别能够 适应更多复杂场景,无需特殊化要求,这类文字检测识别技术可以应用于票证识 别,内容筛选等方向,例如为车站检票提供便利以及为国家安全提供信息内容的 安全监督,因此这个研究方向很有价值和意义。 本文通过对相关技术的研究,设计了一个端到端的文字检测与识别网络,其 中文字检测模块基于目标检测网络,并且与文字识别模块进行特征共享,实现模 块训练的互相监督,该网络可以完成场景文字检测的任务,可以检测复杂场景中 任意方向上的文字,并将文字图像翻译为字符。本文的研究内容和成果如下: 1.改进了YOLOv3 目标检测算法。针对检测长文本行出现的问题进行了修正, 缩减了网络层数,加快了检测速度,同时使用残差网络为网络提供了共享特征层 以应对复杂的场景。 2.设计了一个端到端的文字检测与识别网络。该网络通过残差网络生成检测 模块与识别模块的共享特征,检测模块基于目标检测网络结合共享特征进行文本 区域预测,识别模块结合检测模块的文字区域特征和共享特征进行文字的识别工 作。这样的解决方案降低了模型训练的时间和大小,更避免了由于两个网络的差 异性造成识别准确率较低的问题。该网络可以完成文字检测与识别的任务,相比 于非端到端的网络,在特征提取方面可以提取更通用的特征,文字检测与文字识 别网络模块之间可以互相监督与调整,使得网络的参数更优,效果更好。 3.网络的文字识别模块使用了结合CNN与RNN的编码器和CTC的解码器实现, 完成了输入序列大于输出序列的文本图像翻译成字符的任务。 4.在文字检测模块与文字识别模块之间使用了仿射变换的操作对输入到文 字识别模块中的特征图进行形状上的统一化,使得送入识别模块的特征图拥有统 一的高度,方便进行字符识别。 5.基于Darknet深度学习框架实现网络的训练和测试,对网络模型在不同的 数据集上进行效果测试和与不同的网络模型进行对比实验。 I 通过实验得到的数据和实际效果发现,本文设计的网络模型可以应付多种复 杂的自然场景,具有较强的鲁棒性,算法能够准确地检测到场景中的文字,并对 文字图像进行翻译得到文本字符,在准确率和识别上都达到了较优秀的水平,具 有较强的研究应用价值。 关键词:模式识别,深度学习,文字检测与识别,目标检测网络 II 目 录 摘 要 I ABSTRACT III 第一章 绪论 1 1.1 课题研究背景及意义 1 1.2 国内外研究现状 3 1.3 课题研究内容 6 1.4 本文结构安排 7 第二章 文字检测识别相关技术8 2.1 引言 8 2.2 卷积神经网络 8 2.3 深度残差网络 11 2.4 特征金字塔网络14 2.5 深度学习框架简介16 2.6 本章小结19 第三章 基于目标检测网络的文字检测识别网络的设计 20 3.1 引言20 3.2 共享特征层20 3.3 文字检测模块23 3.3.1 YOLOv3 检测网络23 3.3.2 针对文字检测改进的YOLOv3 24 3.3.3 多尺度检测26 3.3.4 损失函数27 3.4 仿射变换30 3.5 基于检测模块的位置预测和共享特征的文字识别模块32 3.6 本章小结34 第四章 模型训练与效果评估35 4.1 引言35 4.2 模型的评估方法35 4.3 模型的训练数据集37 4.4 模型的训练过程38 4.5 模型性能评价40 4.5.1 模型效果对比分析40 4.5.2 检测模块的改进效果4

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档