OCR文字识别原理及应用.docxVIP

下载本文档

3
0
约3.32千字
约 9页
2025-05-03 发布于湖南
举报
版权申诉

OCR文字识别原理及应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

前言

文本是人类最重要的信息来源之一，自然场景中充满了形形色色的文字符号。OCR（OpticalCharacterRecognition，光学字符识别）相信大家并不陌生，就是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

工业场景的图像文字识别更加复杂，出现在很多不同的场合。例如医药品包装上的文字、各种钢制部件上的文字、容器表面的喷涂文字、商店标志上的个性文字等。在这样的图像中，字符部分可能出现在弯曲阵列、曲面异形、斜率分布、皱纹变形、不完整等各种形式中，并且与标准字符的特征大不相同，因此难以检测和识别图像字符。

对于文字识别，实际中一般首先需要通过文字检测定位文字在图像中的区域，然后提取区域的序列特征，在此基础上进行专门的字符识别。但是随着CV发展，也出现很多端到端的End2EndOCR。

OCR的应用领域：

文字识别OCR通常应用在证件识别（身份证，驾驶证，护照，名片）、文档检索、截图识别等等。

OCR对图片都做了什么：

实际上我们预期的结果是把只有包含单个文字的图片交给计算机去翻译。

机器是怎么看到纸质或者电子文档或是图片上的文字的呢？接下来看一下他的工作流程。

工作流程：

首先要去掉杂质，这样程序就可以集中注意到文字上面。

预处理：

预处理主要包括灰度化，二值化，噪声去除，倾斜矫正等。

灰度化：

灰度图是只含亮度信息，不含色彩信息的图片。

在RGB模型中，如果R=G=B时，则彩色表示一种灰度颜色，其中R=G=B的值叫灰度值。

一般满足下面这个公式：

Gray=0.299R+0.587G+0.114B这种参数考虑到了人眼的生理特点。

原图

灰度图

二值化：非黑即白

对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为了让计算机更快的，更好的识别文字，我们需要先对彩色图进行处理，使图片只前景信息与背景信息，可以简单的定义前景信息为黑色，背景信息为白色，这就是二值化图了。

经过灰度处理的彩色图像还需经过二值化处理将文字与背景进一步分离开。

二值化的过程中涉及到“阈值”的概念，简单来说就是想找到一个合适的值来作为一个界限，大于或小于这个界限的值变为白色或黑色即0或255。那么“阈值”是怎么选出来的？

有很多方法，这里先介绍下面两种：

方法1：

取阈值为127（相当于0~255的中数，（0+255）/2=127），让灰度值小于等于127的变为0（黑色），灰度值大于127的变为255（白色），这样做的好处是计算量小速度快，但是缺点也是很明显的，因为这个阈值在不同的图片中均为127，但是不同的图片，他们的颜色分布差别很大，所以用127做阈值，这种一刀切，效果肯定是不好的。

方法2：

使用直方图方法（也叫双峰法）来寻找二值化阈值，直方图是图像的重要特质。直方图方法认为图像由前景和背景组成，在灰度直方图上，前景和背景都形成高峰，在双峰之间的最低谷处就是阈值所在。

下图就可以将小于T的视为全部为黑色，大于T的为白色。

图像降噪：

现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，称为含噪图像或噪声图像。减少数字图像中噪声的过程称为图像降噪（ImageDenoising）。

在演示的过程中可以看到当二值化之后的图片会显示很多小点，这些都是不需要的信息，会对后面进行图片的轮廓切割识别造成极大的影响，降噪是一个非常重要的阶段，降噪处理的好坏直接影响了图片识别的准确率。

最简单的降噪方法是算法中学到的DFS或者BFS（深度搜索和广度搜索）。我们对w*h的位图先搜索所有联通的区域（值为1的，我们看起来是黑色的，连接起来的区域）。所有联通区域算一个平均的像素值，如果某些联通区域的像素值远远低于这个平均值，我们就认为是噪点。然后用0代替他。

倾斜矫正：

拍照或者选取的图片不可能完全是水平的，倾斜会影响后面切出来的图片，所以要对图片进行旋转。

倾斜矫正最常用的方法是霍夫变换，其原理是将图片进行膨胀处理，将断续的文字连成一条直线，便于直线检测。计算出直线的角度后就可以利用旋转算法，将倾斜图片矫正到水平位置。

OCR在生活和工作中的应用：

1.证件OCR识别

证件OCR识别技术一开始是基于PC的，近几年开始向移动端发展，主要有android，ios平台的SDK，目前成熟的有身份证识别，行驶证识别，驾驶证识别，护照识别等。

2.银行卡OCR识别

银行卡OCR识别主要用于移动支付绑卡，是一项非常有技术含量的细分OCR技术，目前有一些APP已经在用，如支付宝，微信的实名认证，还有疫情期间扫描身份证录入信息等极大的便利了生活和办公。

3.名片OCR识别

名片OCR识别这一类技术也非常成熟

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

OCR文字识别原理及应用.docxVIP