- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何提高Tesseract-OCR的识别精度.doc
如何提高Tesseract-OCR的识别精度
概述:
本文介绍了提高Tesseract-OCR识别精度的步骤及注意事项。通过对Tesseract-OCR的训练能有效提高Tesseract-OCR的识别精度,特别是对与验证码识别方面有很大帮助。
关键字:
Tesseract-OCR,验证码,自动识别,手册,教程
使用步骤
Make Box Files
command
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] [-l specifiedLang] batch.nochop makebox
output
[lang].[fontname].exp[num].box
Fix Box
command
jTessBoxEditor
output
Run Tesseract for Training
command
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] nobatch box.train
output
[lang].[fontname].exp[num].tr
[lang].[fontname].exp[num].txt
Compute the Character Set
command
unicharset_extractor [lang].[fontname].exp[num].box
output
unicharset
Clustering
command1
mftraining -F font_properties -U unicharset [lang].[fontname].exp[num].tr
output1
inttemp mfunicharset Microfeat pffmtable
command2
cntraining [lang].[fontname].exp[num].tr
output2
normproto
Combine
command
combine_tessdata [dir/]lang.
output
[lang].traineddata
Test
command
tesseract specifiedTif output -l specifiedLang -psm 7
output
output.txt
使用说明
关于名称的说明
在各个步骤中多处出现类似[lang].[fontname].exp[num]的名称,这个是按照tesseract的使用说明写的,但在实际使用过程中并不是必须的,可以从简。
例如:my.calibri.exp0.tif写成my.tif也是可以的。
关于步骤的说明
Make Box File
[-l specifiedLang]个人认为主要是为了减少步骤2(Fix Box)的工作量而使用的。选择合适的文件可以让生成的box更加准确,减少修改工作量。
Fix Box
jTessBoxEditor是一个tesseract-OCR的辅助工具,主要用来修改生成的Box。它还有2个不错的功能就是:1、合并tif文件;2、利用一个文本和设置的字体生成一个tif图片。
在用jTessBoxEditor修改生成的Box过程中需要注意,如果tesseract-OCR没有认出某个tif图片上的文字,最好不要自行添加,也不要对粘连的字符进行split或对分开的字符进行merge。因为很可能即使这么做了,在步骤3(Run Tesseract for Training)里也只是会收到一个错误提示。
通过用jTessBoxEditor对识别错误的Box进行修改,可以有效提高Tesseract-OCR的识别精度,特别是在图片中的字符出现粘连的情况下。
jTessBoxEditor的下载地址是:
/projects/vietocr/files/jTessBoxEditor/
Clustering
按照tesseract-OCR的说明,在这个步骤里是可以一次对多个tr进行操作的,但我每次都提示程序出错,所以我采取合并文件的方式来变通。
Combine
这个步骤所生成的traineddata文件就是tesseract-OCR进行识别的关键。在执行combine_tessdata命令前,请将步骤4(Compute the Character Set)和5(Clustering)中生成的6个文件重命名,在文件名前加上“lang.”。
例如:lang是my,
则对应的文件名就是
my. unicharset
temp
my.mfunicharset
my.Microfeat
my.pffmtable
my.n
您可能关注的文档
- 大工13春《测量学》辅导资料三.doc
- 大数据带给我们什么.docx
- 大熊猫是仅产于我国的珍稀濒危动物.doc
- 大豆卵磷脂x效用分析.doc
- 大豆磷脂的提取与分析.doc
- 大题好 ZXXK2006822113069857.doc
- 天线近场测量的综述.doc
- 天门中学2012届高三地理周测.doc
- 太湖县“十三五”规划研究报告.doc
- 女人月经量少没有女人味 食疗补雌激素.doc
- 2025年保健酒行业产能扩张趋势分析报告.docx
- 2025年谷物加工行业安全生产技术及市场报告.docx
- 2025年公共卫生相关专业知识历年真题.docx
- 2025江西抚州市5家市属国有企业招聘51人参考题库及答案解析(夺冠系列).docx
- 《无人机灯光秀服务低空广告行业应用现状及2025年发展趋势》.docx
- 2025江西吉安青源发展集团有限公司及下属子公司面向社会招聘笔试安排备考试题及答案解析(精选题).docx
- 2025江西安义教投企业管理有限公司招聘工作人员3人备考题库附答案解析.docx
- 2025年教育培训行业数字化转型与质量提升策略报告.docx
- 2025-2026学年小学美术冀美版2012五年级下册-冀美版(2012)教学设计合集.docx
- 2025年快递行业最后一公里解决方案报告.docx
最近下载
- 2025年医学课件-小脑肿瘤PPT护理查房.pptx
- 老年活动策划与组织:老年小组活动策划与组织PPT教学课件.pptx
- 抽水蓄能电站上水库工程施工组织设计.pdf VIP
- 椎管内分娩镇痛中国规范2024(附图表).pdf VIP
- 市政工程平行检验记录文本.pdf VIP
- 2025年度食品安全风险日管控、周排查、月调度记录表.pdf VIP
- (高清版)G-B∕T 36992-2019 手动牙间刷.pdf VIP
- 《一只鸟仔》(课件)人音版音乐三年级下册.ppt VIP
- 视觉传达设计专业介绍.pptx VIP
- JB_T 13649.1-2019 高速刀柄与机床主轴接口 第1部分:带有法兰接触面的空心圆锥(HSK)接口技术规范.docx VIP
原创力文档


文档评论(0)