基于PYTHON的图片文字识别.pdfVIP

下载本文档

18
0
约3.66千字
约 4页
2019-10-22 发布于广东
举报
版权申诉

基于PYTHON的图片文字识别.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Python的图片文字识别张明文 2013040201010 张岩 2013040202008 【摘要】在有些工程中，有时候我们需要对图片文字识别。本文利用Python,调用 OpenCV库，先对图片进行预处理，然后借助Google开源的pytesser对图片文字进行了识别。【关键词】：OpenCV,pytesser,文字识别一关于OCR 光学字符识别（英语：Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。一般包括以下几个过程：图像输入、图像前处理、预识别： 1 图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV、CxImage等开源项目。 2 预处理：主要包括二值化，噪声去除，倾斜较正等。 2.1二值化：对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为了让计算机更快的、更好地识别文字，我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息，可以简单的定义前景信息为黑色，背景信息为白色，这就是二值化图。 2.2噪声去除：对于不同的文档，我们对噪声的定义可以不同，根据噪声的特征进行去燥，就叫做噪声去除。 3 倾斜校正：由于一般用户，在拍照文档时，都比较随意，因此拍照出来的图片不可避免的产生倾斜，这就需要文字识别软件进行较正。 4版面分析：将文档图片分段落，分行的过程就叫做版面分析，由于实际文档的多样性，复杂性，因此，目前还没有一个固定的，最优的切割模型。 5字符切割：由于拍照条件的限制，经常造成字符粘连，断笔，因此极大限制了识别系统的性能。 6 字符识别：这一研究已经是很早的事情了，比较早有模板匹配，后来以特征提取为主，由于文字的位移，笔画的粗细，断笔，粘连，旋转等因素的影响，极大影响特征的提取的难度。 7 版面还原：人们希望识别后的文字，仍然像原文档图片那样排列着，段落不变，位置不变，顺序不变地输出到Word文档、PDF文档等，这一过程就叫做版面还原。 8 后处理、校对：根据特定的语言上下文的关系，对识别结果进行校正，就是后处理。二利用OpenCV进行预处理（一）关于OpenCV OpenCV 的全称是Open Source Computer Vision Library，是一个跨平台的计算机视觉库。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。 OpenCV用C++语言编写，它的主要接口也是C++语言，但是依然保留了大量的C 语言接口。该库也有大量的Python,Java和MATLAB 的接口。另外，一个使用CUDA 的GPU接口也于2010年9月开始实现。 (二)使用OpenCV进行图片预处理 1.读入图像，并把彩色图转化为灰度图本文需要识别的图片如下，为一张彩色图在进行图像处理的时候，对灰度图的处理往往比彩色图简单一些，也少消耗一下资源，所以，在进行下一步工作前，我们先把图像转化为灰度图。OpenCV 提供的读入图像接口函数为成imread,转化为灰度图的接口函数为cvtColor,并给它传入参数COLOR_BGR2GRAY,它就可以实现彩色图到灰度图的转换，转化为灰度图后图像如下。 2.对图像进行形态学开运算，并做自适应阈值处理把图像转换为灰度图后，有时候会产生噪点，有时候文字会在有些地方断裂，这是我们不希望看到的，所以，我们利用开运算去除噪点，并是文字连续。另外，转化为灰度图后，我们发现图片对比度不是很好，为此，我们在采用自适应阈值对图片进行阈值处理，以增强对比度，便于后文的pytesser对文字进行识别。尽心开运算和自适应阈值处理以后，图片效果如下三利用pytesser进行文字识别 pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR 开源项目的一个模块，可将图片中的文字转换成文本（主要是英文）。本文的前面已经对图片进行了各种预处理，现在就利用pytesser 来进行文字识别。如果对图片的预处理做的很好，pyt