《机器视觉理论与实战》课件第四章 OCR文字识别原理与实战.pptx

下载文档

0
0
约1.74万字
约 114页
2024-07-31 发布于山东
举报
版权申诉
保障服务

《机器视觉理论与实战》课件第四章 OCR文字识别原理与实战.pptx

1、本文档共114页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第四章OCR文字识别原理与实战

;4.1OCR算法简介;1、OCR介绍;2、百度飞浆框架中的OCR实现

算法采用的是典型的两阶段OCR算法，即检测模型+识别模型的方式。;3、PP-OCR算法框架;文本检测是通过给定输入图像或者视频，找出文本的区域，可以是单字符位置或者整个文本行位置。;文本识别;4.2数显屏数据自动识别系统

;1、文本检测

文本检测的任务是定位出输入图像中的文字区域。近年来学术界关于文本检测的研究非常丰富，传统方法是将文本检测视为目标检测中的一个特定场景，基于通用目标检测算法进行改进适配。

目前较为流行的文本检测算法可以大致分为基于回归和基于分割的两大类算法。基于回归的算法借鉴通用物体检测算法，通过设定anchor回归检测框，或者直接做像素回归。基于分割的算法引入了Mask-RCNN，这类算法在各种场景、对各种形状文本的检测效果都可以达到一个更高的水平。

;

基于分割的文本检测结果示例如图所示，算法对图片中的文字区域用文本框进行截取。

;2、文本识别

文本识别的任务是识别出图像中的文字内容，一般输入来自于文本检测得到的文本框截取出的图像文字区域。文本识别一般根据待识别文本形状分为规则文本识别和不规则文本识别两大类。

规则文本识别算法根据解码方式不同可以大致分为CTC和Sequence2Sequence两种，主要区别是将序列特征转化为最终识别结果的处理方式不同，CTC的经典算法是CRNN。

;本案例以PP-OCRv3模型为基础，针对数显屏数据识别场景进行优化。PP-OCRv3是一个两阶段的OCR框架，其中文本检测算法选用DB算法，如图所示。

;文本识别算法选用CRNN，如图所示。检测和识别模块之间添加文本方向分类器，以应对不同方向的文本识别。

;4.2.2DBNet算法实现与解析

DBNet是一个基于分割的文本检测算法，提出可微分阈值DifferenttiableBinarizationmodule（DBmodule）的方法动态调整阈值以区分文本区域和背景。

;图中，蓝色箭头描述的是基于分割的普通文本检测算法的流程，此类方法得到分割结果之后采用一个固定的阈值得到二值化的分割图，之后采用诸如像素聚类的启发式算法得到文本区域。上图箭头描述的则是DBNet算法的流程，最大的不同在于DBNet有一个阈值图，通过网络预测图片每个位置处的阈值，而不是采用一个固定值，能够更好的分离文本背景与前景。

DB算法有以下几个优势：

算法结构简单，无需繁琐的后处理

在开源数据上拥有良好的精度和性能

;

但是标准的二值化方法是不可微的，导致网络无法端对端训练。为了解决这个问题，DB算法提出了可微二值化（DifferentiableBinarization，DB）。可微二值化将标准二值化中的阶跃函数进行了近似，使用如下公式进行代替：;其中，P是上文中获取的概率图，T是上文中获取的阈值图，k是增益因子，在实验中，根据经验选取为50。标准二值化和可微二值化的对比图如下图3（a）所示。

当使用交叉熵损失时，正负样本的loss分别为l+和l-：

对输入x求偏导则会得到：

;可以发现，增强因子会放大错误预测的梯度，从而优化模型得到更好的结果。图(a)中，x0的部分为正样本预测为负样本的情况，可以看到，增益因子k将梯度进行了放大；而图（c）中x0的部分为负样本预测为正样本时，梯度同样也被放大了。

;构建DBNet文本检测模型可以分为以下三个部分：

Backbone网络，负责提取图像的特征。

FPN网络，特征金字塔结构增强特征。

Head网络，计算文本区域概率图。

;4.2.3CRNN算法实现与解析

CRNN的网络结构体系，从下往上分别为卷积层、递归层和转录层三部分：

;

;递归层，在卷积网络的基础上，构建递归网络，将图像特征转换为序列特征，预测每个帧的标签分布。RNN具有很强的捕获序列上下文信息的能力。使用上下文线索进行基于图像的序列识别比单独处理每个像素更有效。以场景文本识别为例，宽字符可能需要几个连续的帧来充分描述。此外，有些歧义字符在观察其上下文时更容易区分。其次，RNN可以将误差差分反向传播回卷积层，使网络可以统一训练。第三，RNN能够对任意长度的序列进行操作，解决了文本图片变长的问题。CRNN使用双层LSTM作为递归层，解决了长序列训练过程中的梯度消失和梯度爆炸问题。

;转录层，通过全连接网络和softmax激活函数，将每帧的预测转换为最终的标签序列。最后使用CTCLoss在无需序列对齐的情况下，完成CNN和RNN的联合训练。CTC有一套特别的合并序列机制，LSTM输出序列后，需要在时序上分类得到预测结果。可能

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

《机器视觉理论与实战》课件第四章 OCR文字识别原理与实战.pptx