Tesseract OCR训练30中文翻译.docxVIP

下载本文档

52
0
约9.63千字
约 12页
2018-02-28 发布于江西
举报
版权申诉

Tesseract OCR训练30中文翻译.docx

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Tesseract OCR训练30中文翻译

Training Tesseract3——如何使用该提供的工具来训练一种新语言简介Tesseract 3.0x是完全可以训练的。该页面描述了训练的过程，为适应各种不同的语言提供了指导，给出了从结果中能得到的信息。背景和局限Tesseract最初是仅为识别英文文本而设计的。现在已经尝试了改进该引擎和其训练系统，使它能处理其他语言以及UTF-8字符。Tesseract3.0能处理用UTF-8编码的任何Unicode字符。但它能够成功处理的语言范围有限，所以对于你要训练的特定语言能不能成功要做好心理准备。Tesseract3.01增加了从上向下写的语言，Tesseract3.02增加了从右向左的希伯来语。Tesseract现在用一个称为cube的辅助引擎（在Tesseract3.0+中），来处理像阿拉伯语这样的脚本。Tesseract对于大字符集语言（例如中文）会慢很多，但看起来结果还不错。Tesseract需要有明确分开的不同字体，来知道同一字符的不同形状。以前是限制到32种字体，现在提高到64种。这是由intproto.h文件中的常变量MAX_NUM_CONFIGS来设置的。运行时间严重依赖于提供的字体数，超过32种字体会导致明显的变慢。其中一些硬编码算法是假设用的是ASCII标点符号和数字，任何使用其他不同标点符号和数字的语言的训练结果会不如预期。这点会在3.02以上的版本中被修复。所有的命令行都要在同一文件夹目录下运行，该目录放置了你的输入文件。另外需要的库开始3.03之前，需要另外的库来建立训练工具。建立训练工具开始3.03之前，如果你是从源代码编译Tesseract的，你需要用两个单独的make命令来编译和安装训练工具。一旦上面的另外的库安装好，在Tesseract的源目录下运行下面命令：需要的数据文件要训练另一种语言，必须要在tessdata子目录下创建一些数据文件，然后用combine_tessdata将这些文件合并到一个单独的文件里。命名传统是languagecode.file_name。语言编码遵循ISO 639-3标准，但事实上任何字符都可以被使用。比如对于英文，需要的文件是：最后合并的文件是文件可能仍需另外提供。traineddata文件只是输入文件的简单级联，还有一张内容记录已知文件类型偏移的表。要知道现在可以接受的文件名请看源代码中ccutil/tessdatamanager.h。注意到traineddata文件中的文件与3.00之前的版本所使用的不同，在未来的版本中极有可能还会变化。对输入文本文件的要求文本输入文件(lang.config, lang.unicharambigs, font_properties, box files, wordlists for dictionaries ……)需要满足下列标准：ASCII或UTF-8编码，无字节顺序标记；Unix行结束符’\n’；最后一个字符必须是’\n’，有些文本编辑器显示为最后一行是一个空行。如果你忽略了这点，你就会收到一个错误信息提醒”last_char==’\n’:Error:Assert failed……”你可能省略多少步骤你必须要按下面描述的步骤创建unicharset, inttemp, normproto, pfftable文件。如果你只是尝试识别有限范围的字体（比如只有一种字体），一个单独的训练页面可能就足够了。其他的文件不需要提供，但如果用了也很可能会提高准确率，这取决于你的应用。老的DangAmbigs文件被unicharambigs文件代替。训练过程有些步骤不可避免的需要人工手动完成。已经尽可能多的提供了自动化的帮助方法。将来会有更多的自动化的工具，但是需要负责的安装建立过程。下面涉及的工具都建立在训练子目录中。产生训练图像第一步是确定要使用的完整字符集，准备一个含有一系列样本的文本或文字处理文件。当创建一个训练文件时，需要记住的最重要一点是：确保每个字符有一个最小数量的样本，10个就很好，但罕见字符5个就够了；高频字符应该有更多的样本，至少20个；不要把所有非字母的字符放在一起，让文本看起来更真实一些，例如The quick brown fox jumps over the lazy dog.0123456789 !@#$%^(),.{}/?就很糟糕。The (quick) brown {fox} jumps! over the $3,456.78 lazy #90 dog duck/goose, as 12.5% of E-mail from aspammer@ is spam?就好很多。这使得查找文本行的代码能更好的找到特殊字符的有意义的基准指标。新的自动方法根据上述规范，准备一个含有你的训练文本的UTF-8文本文件（t