如何提高Tesseract-OCR的识别精度.docVIP

下载本文档

18
0
约2.29千字
约 5页
2016-11-30 发布于安徽
举报
版权申诉

如何提高Tesseract-OCR的识别精度.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

如何提高Tesseract-OCR的识别精度.doc

如何提高Tesseract-OCR的识别精度概述：本文介绍了提高Tesseract-OCR识别精度的步骤及注意事项。通过对Tesseract-OCR的训练能有效提高Tesseract-OCR的识别精度，特别是对与验证码识别方面有很大帮助。关键字： Tesseract-OCR,验证码,自动识别,手册,教程使用步骤 Make Box Files command tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] [-l specifiedLang] batch.nochop makebox output [lang].[fontname].exp[num].box Fix Box command jTessBoxEditor output Run Tesseract for Training command tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] nobatch box.train output [lang].[fontname].exp[num].tr [lang].[fontname].exp[num].txt Compute the Character Set command unicharset_extractor [lang].[fontname].exp[num].box output unicharset Clustering command1 mftraining -F font_properties -U unicharset [lang].[fontname].exp[num].tr output1 inttemp mfunicharset Microfeat pffmtable command2 cntraining [lang].[fontname].exp[num].tr output2 normproto Combine command combine_tessdata [dir/]lang. output [lang].traineddata Test command tesseract specifiedTif output -l specifiedLang -psm 7 output output.txt 使用说明关于名称的说明在各个步骤中多处出现类似[lang].[fontname].exp[num]的名称，这个是按照tesseract的使用说明写的，但在实际使用过程中并不是必须的，可以从简。例如：my.calibri.exp0.tif写成my.tif也是可以的。关于步骤的说明 Make Box File [-l specifiedLang]个人认为主要是为了减少步骤2（Fix Box）的工作量而使用的。选择合适的文件可以让生成的box更加准确，减少修改工作量。 Fix Box jTessBoxEditor是一个tesseract-OCR的辅助工具，主要用来修改生成的Box。它还有2个不错的功能就是：1、合并tif文件；2、利用一个文本和设置的字体生成一个tif图片。在用jTessBoxEditor修改生成的Box过程中需要注意，如果tesseract-OCR没有认出某个tif图片上的文字，最好不要自行添加，也不要对粘连的字符进行split或对分开的字符进行merge。因为很可能即使这么做了，在步骤3（Run Tesseract for Training）里也只是会收到一个错误提示。通过用jTessBoxEditor对识别错误的Box进行修改，可以有效提高Tesseract-OCR的识别精度，特别是在图片中的字符出现粘连的情况下。 jTessBoxEditor的下载地址是： /projects/vietocr/files/jTessBoxEditor/ Clustering 按照tesseract-OCR的说明，在这个步骤里是可以一次对多个tr进行操作的，但我每次都提示程序出错，所以我采取合并文件的方式来变通。 Combine 这个步骤所生成的traineddata文件就是tesseract-OCR进行识别的关键。在执行combine_tessdata命令前，请将步骤4（Compute the Character Set）和5（Clustering）中生成的6个文件重命名，在文件名前加上“lang.”。例如：lang是my，则对应的文件名就是 my. unicharset temp my.mfunicharset my.Microfeat my.pffmtable my.n