- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OCR技术调研
OCR技术调研
目 录
1. 调研目的 1
2. 技术选型 1
3. 技术介绍 1
4. 调研结论 1
调研目的
目前外购数据文档中,及爬取数据中都会带有大量图片数据,这类数据不容易存储及检
索,这就对图像文件进行分析处理,获取文字信息,放入全文索引库,丰富大数据知识库。
对OCR光学字符识别技术调研,就是为了找到一种合适的技术来实现这个需求。
技术选型
关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,但是
都价值不菲。基于项目选型的几点要求:开源、免费、识别率高;所以选择了Tesseract的OCR引擎。
技术介绍
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR
业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。其通过不同的语言训练库可以支持多种语言(包括中文、日文)。
Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新
版本3.0已经支持中文OCR,并提供了一个命令行工具。
调研结论
技术优势
开源
Tesseract的OCR引擎已作为开源项目发布在Google Project,是完全开源的。
多语言支持
通过不同的语言训练库可以支持多种语言(包括中文、日文)。
多平台支持
该项目目前支持Windows、Linux和Mac OS 等主流平台。
支持样本训练
可以通过jTessBoxEditor工具对样本进行训练,而生成语言文件供Tesseract使用,从而提高识别精确度。
技术缺陷
中文识别精度有限
Tesseract早期版本是不支持中文识别的,3.0版本之后开始支持中文,行距,字体等因素都会影响设别度。可以进行样本训练来提升精确度。
不支持API调用
作为一个引擎,Tesseract只提供命令行工具,只能通过命令行来调用,无法直接使用java调用API。
- I/1 -
- 2/2 -
您可能关注的文档
最近下载
- 2025年中考道德与法治真题分类汇编(全国通用)专题10 遵守社会规则(全国通用)(第01期)(原卷版).docx VIP
- 智慧消防综合管理云平台使用说明书.pdf
- 无人机驾驶员培训计划及大纲.docx
- 2024南昌市进贤县辅警考试真题及答案.docx VIP
- 钢筋混凝土化粪池22S702.pdf VIP
- ISO9001:2015质量管理体系标准(全文).doc VIP
- 肿瘤免疫治疗进展报告PPT.pptx VIP
- 中考数学压轴题集训手册.pdf VIP
- 工程造价专业职业生涯规划书发展报告应届专科毕业生全国大学生职业规划大赛模板范文1500字.pdf VIP
- CECS405-2015 建设工程质量检测机构检测技术管理规范.pdf VIP
文档评论(0)