- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Tesseract主要API功能介绍
tesseract本身代码是由c/c++混编而成的,其中有用的简单的接口函数几乎都是在baseapi.h中。 从其处理过程中,不难得出:它还需要有一个image处理的类,及相关的方法;这样子,读取图片后,生成image对象,再获取相关的参数;当然还需要有对image对象的读取,版面分析等接口函数;再次,它还定义了很多自身的数据类型,比如:BITS16、array_record、BLOCK、IMAGE等;而且它具有自学的能力。 现在,我们从头有调理地简单讲述一下子:(1)tesseract::TessBaseAPI,基础的接口函数,包含了初始化,简单的 处理图片文字信息,版面分析的结果体等。?(2)IMAGE,只是一个类,里边封装了相关的图片操作,包括图片的 读取,图片参数信息的获取等。?(3)其他,包括数据类型声明,相关结构体声明,跨平台处理,命令端参数提取等。?
我们在实际中用到的就是前两个里边的东西。
声明:以下函数皆是在tesseract::TessBaseAPI域 下
1: SetImage
函数声明:
void tesseract::TessBaseAPI::SetImage
(
const unsigned char *?
imagedata,
int?
width,
int?
height,
int?
bytes_per_pixel,
int?
bytes_per_line?
)
为Tesseract 提供待识别的图片。
2:SetSourceResolution
函数声明:
void tesseract::TessBaseAPI::SetSourceResolution(int?ppi)
设置源图像的分辨率(像素每英尺),可以计算最终的字体大小信息。 SetImage之后调用此函数。
3:SetRectangle
函数声明:
void tesseract::TessBaseAPI::SetRectangle
(
int?
left,
int?
top,
int?
width,
int?
height?
)
将识别限制到图像的一个子矩形区域,SetImage 之后调用此函数。每一次该函数调用后将清除识别结果,以便同一张图像可以进行多矩形区域的识别。
4:SetThresholder
函数声明:
void tesseract::TessBaseAPI::SetThresholder( HYPERLINK /dox/tesseract-ocr-3.02.02/classtesseract_1_1ImageThresholder.html ImageThresholder?*?thresholder)
在一些特殊的情况下, 通常是产生一个阈值器类的子类的时候,该函数可以提供一个不同的阈值器,阈值器可能会随着图片和设定预装入,或者被随后设定。Tesseract 拥有阈值器支配权,并在它被替换或是API被析构后删除。
5:GetThresholdedImage
函数声明:
Pix * tesseract::TessBaseAPI::GetThresholdedImage()
从Tesseract获得内部阈值图像的拷贝,在SetImage 或者TesseractRect 之后可以随时别调用。 注意,只有安装了Leptonica之后才可使用。
6:GetRegions
函数声明:
Boxa * tesseract::TessBaseAPI::GetRegions
(
Pixa **?
pixa
)
以aleptonica-style Boxa, Pixa pair 格式获得页面结构分析的结果,在Recognize前后均可被调用。
7:GetTextlines
函数声明:
Boxa * tesseract::TessBaseAPI::GetTextlines
(
Pixa **?
pixa,
int **?
blockids?
)
以aleptonica-style Boxa, Pixa pair 格式获取文本行,在Recognize前后均可被调用。如果blockids(block数目) 是空的话,每行block- id返回每行一个元素的数组,使用之后被删除。
8:GetStrips
函数声明:
Boxa * tesseract::TessBaseAPI::GetStrips
(
Pixa **?
pixa,
int **?
blockids?
)
以aleptonica-style Boxa, Pixa pair 格式获取图像区域的文本行和条形区域,方便后面非矩形区域的处理。在Recognize前后均可被调用
9:GetWords
函数声明:
Boxa * tesseract::TessBas
您可能关注的文档
最近下载
- 2025年河北省高中通用技术学业水平考试模拟试题集锦.doc
- 学科核心素养背景下高中政治教学培养学生批判性思维的策略研究.docx
- 地暖施工国家规范(完整).doc
- 低空经济产业园建设项目可行性研究报告.docx
- 初中语文古诗文意境可视化教学探究教学研究课题报告.docx
- 血常规模板_原创精品文档.xls VIP
- 第7课 珍视亲情 学会感恩(精品课件)(25张ppt)-【中职专用】高一思想政治《心理健康与职业生涯规划》同步课堂精品课件(高教版2023·基础模块).ppt.pptx VIP
- 2024年中考真题—山西省生物试题(原卷版).docx VIP
- 人教PEP版小学英语六年级下册Unit 4 Then and now Part B Read and write.pptx VIP
- 室内设计师试用期工作总结PPT.pptx
文档评论(0)