基于MSER和Tesseract的自然场景图像文字识别.docVIP

下载本文档

18
0
约6.08千字
约 9页
2018-01-30 发布于湖北
举报
版权申诉

基于MSER和Tesseract的自然场景图像文字识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于MSER和Tesseract的自然场景图像文字识别　　摘要：针对传统OCR技术对自然场景下的图像文本识别率低的问题，设计和实现了自然场景的图像文字自动识别系统。该系统主要采用了改进的MSER场景文本定位算法，利用Tesseract对图像文字样本进行训练，然后进行场景图像文字识别，并在MFC环境下实现。实验结果表明，训练后的Tesseract库对场景图像文字识别有显著提升。　　关键词：场景图像；二值化； MSER； Tesseract；文字识别　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2017）33-0213-04 　　Abstract： Aiming at the problem that the traditional OCR technology has low text recognition rate of natural scene image， the automatic text recognition system of natural scene image is designed and realized. The system mainly uses the improved MSER scene text localization algorithm， using Tesseract to train the image text samples， and then recognize the text of scene image， and realize the function in the MFC environment. The experimental results show that the trained Tesseract library has a significant improvement for the text recognition of natural scene image. 　　Key words： Scene image； binaryzation； MSER； Tesseract； text recognition 　　1 概述　　自然场景中的文字往往携带有非常重要的信息，它能够被用来描述该图像的内容。很多由摄像设备拍摄的图片中，都存在或多或少的文字，比如车牌号码、商标文字、发票文字及?底值取Ｍü?识别图片中的文字，可以进一步理解图像的内容。传统的OCR（Optical Character Recognition，光学字符识别）技术对标准的印刷体文字识别率高，但对于背景受污染、非标准字体文字，识别率将极速下降[1]。　　然而自然场景下的文字具有背景复杂、字体多样、噪声严重等特点，从而大大增加了文字识别的困难。冯永康等[2]提出了一种利用大漠插件结合小规模自建字库对非标准字体图像文字进行自动模糊识别方法，但需建立字库且耗时。陈梓洋等[3]利用分水岭算法对原图像进行预处理，再对预处理后的图像进行特征提取、划分区域，最后利用ISODATA算法进行二次处理，但识别结果不太理想。李月洁[4]提出一种深度学习的自然场景中特定文字图像优化识别方法。融合自然场景图像的纹理特征与边缘信息特征来获得文本图像候选区，利用深度学习来表述自然场景图像中底层语义识别特征与高层语义识别之间的关系，提取不同自然场景下的语义特征，并对不同特征进行分类，利用其分类的结果组建基于深度学习的文字图像优化识别模型，从而完成特定文字图像优化识别。胡文等[5]利用OpenCV在Android手机上设计了快递单文字识别系统，但系统仅给出了对数字的识别。　　在对自然场景图像中的文字进行识别时，文字定位和文字识别算法是场景文字识别系统中的关键。文字定位方法目前比较成熟的有笔画宽度变换（Stroke Width Transform， SWT[6]）和最大稳定极值区域（Maximally Stable Extremal Regions， MSER[7]）。Tesseract OCR是一种字符图像识别引擎，最新版本为Tesseract 4.0[8]，支持中文识别。但未经训练的Tesseract识别率不高，需要进行专门训练。　　针对传统OCR技术对自然场景下的文本识别率低的问题，设计和实现了自然场景的图像文字自动识别系统。本系统首先将本地图片读取，对图片进行灰度化、二值化、去噪等预处理后，采用了基于OpenCV[9]的MSER文本定位算法进行文字定位和利用Tesseract引擎进行文字识别，并在MFC环境下实现。　　2 系统结构　　基于自然场景图像文字识别系统主要分为4个模块：获取文字图像模块、图像预处理模块、文字识别模块及保存识别结果