- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
windows环境下编译Tesseract-OCR
windows环境下编译Tesseract-OCR
概述
最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用 HYPERLINK /p/tesseract-ocr/issues/detail?id=362 \l c93 capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。
准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。
需要下载的库有:
HYPERLINK /zlib-1.2.7.tar.gz zlib-1.2.7
HYPERLINK /projects/libpng/files/latest/download?source=files libpng-1.5.10
HYPERLINK /projects/giflib/files/giflib-4.x/giflib-4.1.6/giflib-4.1.6.tar.gz/download giflib-4.1.6
HYPERLINK /projects/giflib/files/libungif-4.x/libungif-4.1.4/libungif-4.1.4.tar.gz/download libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
HYPERLINK /files/jpegsrc.v8d.tar.gz jpeg-8d
HYPERLINK http://www.cl.cam.ac.uk/~mgk25/download/jbigkit-2.0.tar.gz jbigkit-2.0
HYPERLINK /libtiff/tiff-3.9.5.tar.gz tiff-3.9.5
HYPERLINK /files/libwebp-0.1.3.tar.gz libwebp-0.1.3
HYPERLINK /source/leptonica-1.68.tar.gz leptonica-1.68
编译环境推荐使用最新的msys和tdm-gcc:
msys可以通过下载 HYPERLINK /projects/mingw/files/latest/download?source=files mingw-get-insta行安装。
HYPERLINK /projects/tdm-gcc/files/TDM-GCC%20Installer/Previous/1.1006.0/tdm-gcc-4.5.2.exe/download tdm-gcc推荐使用4.5.2版本。
Tesseract-OCR 3.02可以通过svn获取,地址是: HYPERLINK /svn/trunk /svn/trunk
编译
本节所列出的为完整的编译过程及步骤顺序,请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前,请先解压缩,并进入解压缩后的目录。
zlib-1.2.7
解压后进入代码目录,执行以下命令:
./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir=/usr/local/include/png LDFLAGS=-no-undefined -Wl,--as-needed CPPFLAGS=-I/mingw/include/zlib
make -j8 make install
giflib-4.
文档评论(0)