20221005 课件 光普图像文字识别(OCR)技术及场景应用介绍.pptxVIP

20221005 课件 光普图像文字识别(OCR)技术及场景应用介绍.pptx

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;光学字符识别(OpticalCharacterRecognition,OCR)是从图像中识别出文字的技术,利用机器将图像中手写或印刷文本转换为计算机可以直接处理的格式。

OCR技术能够处理多种不同场景的图像,包括拍摄或扫描得到的各种卡证、纸质文档图像,也包括含有文字的自然场景图像和叠加了字幕文本的视频图像等。;;;OCR通过图像文字的自动识别实现信息录入,有三大核心优势:

提高效率,相比传统的人工方式,显著提升信息录入效率。

降低成本,通过机器代替人工,可大幅降低人力成本的开销。

适用性强,OCR技术能够实现多种场景、多种语言的识别。

此外,通过OCR提取图像中的文本,并进一步分析这些文字和符号所包含的语义信息,能够为机器理解图像提供高层次语义线索。;

一体化;;;;;;;图像处理;传统的文本检测与识别方法受限于手工设计特征的表达能力和处理流程的复杂性,对于较为复杂的图片情况,例如带有大角度畸变以及模糊不清的文本图像,很难达到理想的文字识别效果。深度学习技术的出现很好地弥补了这一不足。;;去噪声

平滑

去黑边

倾斜校正等;二值化,将图像上的点的灰度值转化为0或255,将整个图像呈现出明显的黑白效果。也就是将整个图像呈现出明显的只有黑和白的视觉效果。

灰度平局值法、百分比阈值(P-Tile法)、基于谷底最小值的阈值、基于双峰平均值的阈值、

迭代最佳阈值、OSTU、一维最大熵、力矩保持法、基于模糊集理论的阈值、ISODATA(也叫做intermeans法)、Shanbhag法、Yen法;去噪(中值滤波、均值滤波、Wiener维纳滤波);倾斜校正处理(Hough变换、Fourier变换、最近临簇法、最近临簇法);;版面分析将图像切分为不同区域,再把其划分为不同的类型,如图片块、

文本块和线条等。虽然名片图像的版面构造多种多样,仍能够将它划分成三类

图像组合:

文字块:完全由字符构成,它包含中文、字母、数字以及各种标点符号等。

线条块:有些名片图像中含有线条,用来醒目单位名称以及有关信息等,通常位于姓名与单位名称间或单位名称与地址之间。

图形图片块:由各种线条构成的图案,如单位的标识等。有时,图片块中包含字符或线条,本文???其与图形块和线条分开处理,因为图片块中的信息是偶尔也是有用的。;1.轮廓检测(只获取最外层的)

2.遍历所有检测到的轮廓,用cvBoundingRect()得到每一个轮廓的外接矩形;文字特征对OCR识别来说非常重要,文字特征区分一般为两类:

利用统计的特征,例如文字块的黑、白像素点的比例,通过将文字块几何的分成好几个小块时,形成特征向量,向量是通过每个单独划分的几何区域黑、白点数比例组合起来的,在匹配时,可以利用简单的距离公式或者相似度进行最优匹配。

从文字的结构入手,比如图片内的文字块通过细化算法细化后,计算交叉点之数量及位置,同时统计字的笔划数量及位置,或配合模版的匹配方法,进行匹配。;行分割

字分割;样本库;宋体

仿宋

黑体

楷体

隶书

魏碑

圆体;;中;;;深度学习的出现打破了传统机器学习主要依赖于人工进行特征,而在深度学习无需人们手动进行特征提取,由机器?动提取的很大程度上解决数据集处理过程的不便。

利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好,因此近几年的OCR文字识别方法一般都基于深度学习实现。;文本检测的任务是从图像或视频中找出文本区域(单字符位置或者文本行位置);文本识别的任务是识别一个固定区域的的文本内容,将图像信息转换为文字信息。

文本识别的应用场景包括文档识别、路标识别、车牌识别、工业编号识别等。;CRNN卷积神经网络结构:

卷积层,使用深度CNN,对输入图像提取特征。

循环层,使用双向RNN(BLSTM)对特征序列进预测,输出预测标签(真实值)分布。

转录层,使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列。;CRNN+Attention(ASTER)

ASTER全称为AttentionalSceneTExtRecognizerwithFlexibleRectification,包括两个模块,分别用来矫正和识别;聚合交叉熵(ACE)

通过将2D预测平坦化为1D预测,ACE损失经历三个阶段:

沿时间维度聚合每个类别的概率;

将累积结果和标签标注标准化为所有类别的概率分布;

使用交叉熵比较这两个概率分布。?

ACE损失函数实现了对CTC和Aster的竞争性能,收敛速度更快,占用内存更小。;几种主流文字识别算法的比较;CTC+Attetion+ACE识别网络:

利用CNN+BLSTM提取文本行的序列特征,同时采用muti-head的结构,在训练时,以CTC为主,AttentionDecoder和ACE辅助训练。在预测时,采

文档评论(0)

184****5394 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档