windows环境下编译Tesseract-OCR.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
windows环境下编译Tesseract-OCR

windows环境下编译Tesseract-OCR 概述 最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。 虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用 HYPERLINK /p/tesseract-ocr/issues/detail?id=362 \l c93 capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。 准备工作 根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。 需要下载的库有: HYPERLINK /zlib-1.2.7.tar.gz zlib-1.2.7 HYPERLINK /projects/libpng/files/latest/download?source=files libpng-1.5.10 HYPERLINK /projects/giflib/files/giflib-4.x/giflib-4.1.6/giflib-4.1.6.tar.gz/download giflib-4.1.6 HYPERLINK /projects/giflib/files/libungif-4.x/libungif-4.1.4/libungif-4.1.4.tar.gz/download libungif-4.1.4(这个似乎在最终的编译过程中没有起作用) HYPERLINK /files/jpegsrc.v8d.tar.gz jpeg-8d HYPERLINK http://www.cl.cam.ac.uk/~mgk25/download/jbigkit-2.0.tar.gz jbigkit-2.0 HYPERLINK /libtiff/tiff-3.9.5.tar.gz tiff-3.9.5 HYPERLINK /files/libwebp-0.1.3.tar.gz libwebp-0.1.3 HYPERLINK /source/leptonica-1.68.tar.gz leptonica-1.68 编译环境推荐使用最新的msys和tdm-gcc: msys可以通过下载 HYPERLINK /projects/mingw/files/latest/download?source=files mingw-get-insta行安装。 HYPERLINK /projects/tdm-gcc/files/TDM-GCC%20Installer/Previous/1.1006.0/tdm-gcc-4.5.2.exe/download tdm-gcc推荐使用4.5.2版本。 Tesseract-OCR 3.02可以通过svn获取,地址是: HYPERLINK /svn/trunk /svn/trunk 编译 本节所列出的为完整的编译过程及步骤顺序,请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前,请先解压缩,并进入解压缩后的目录。 zlib-1.2.7 解压后进入代码目录,执行以下命令: ./configure make -f win32/makefile.gcc make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1 libpng-1.5.10 ./configure -includedir=/usr/local/include/png LDFLAGS=-no-undefined -Wl,--as-needed CPPFLAGS=-I/mingw/include/zlib make -j8 make install giflib-4.

文档评论(0)

liudao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档