文通thocr资料数字化系统.ppt

下载文档 降价啦

3
0
约1.32千字
约 22页
2017-06-21 发布于广东
举报
版权申诉
保障服务

文通thocr资料数字化系统.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文通thocr资料数字化系统

文通TH-OCR资料数字化系统; 专业的档案、公文、图书、剪报册等纸介质文档及电子文档的数字化工具。 1.系统特点：双层PDF技术及版式还原技术处于业内领先水平单字识别率达到行业内领先水平题录信息可以自定义工序可以自定义 2.应用领域政府部门出版社图书馆电力行业报社 ;二.软件简介 ;2.管理端;2.1管理端简介：角色管理角色管理分为：角色创建、修改、删除、成员管理用户管理用户管理：用户管理包括添加用户、用户资料修改、用户权限设置工作量统计按照工作量、时间段等进行各种统计及生成报表题录数据设置根据客户要求进行题录项的设置;3.加工端 ; 加工工序选择生成加工工序数据流通道; 自动倾斜校正二值化去装订孔去黑边去杂点; 可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本、竖排文本、图像、表格四种类型。用户也可以根据需求，进行手动版面分析。;识别核心流程版内置文通科技最新研发的高性能文字识别引擎，识别率达99.8%以上。 Unicode编码采用UNICODE国际编码标准。系统可在一个统一的平台下，同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。 XML技术系统基于开放式的XML数据结构，可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。;可以进行简繁日韩英五种语言的文字识别：简体多体繁体多体简体全字集繁体全字集手写体纯英文日文韩文;横向校对在识别结果区域中，通过人工逐字逐句比较识别结果与原始图像，找到错误的地方并修改。浮动跟踪条可以提高横向校对的速度，它是将识别的原始图像块跟踪显示在识别结果上，使识别结果与原始图像一一对应的显示，直观、方便、快捷; 查错率高，集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别，可以比较容易地发现错字，不易漏掉错误。集字校对编辑器重新组织文字顺序，不会使校对人员陷入到识别文字的故事情节中。校对效率高，不易疲劳。把集字校对的结??与传统方法校对的结果进行比较、综合，就能得到最高的查错和纠错效果，得到尽可能低的错误率和最好的最终结果。;;识别结果经修改编辑后，可根据需要将文档存为RTF、PDF或直接保存为TXT格式。导出为PDF格式导出为RTF格式导出为TXT格式导出题录数据;PDF中的文字层用于查询、检索、利用，图像层用于浏览，提供给用户多种应用方式。图像部分压缩存储。对黑白图像采用G4压缩，对彩色、灰度图像采用JPEG压缩。文字部分所占空间极小。整个文件与压缩过的图像文件大小相差无几。;题录著录：根据题录项要求录入题录数据;题录校验、全文文件检查、题录项修改、数据导出或上传;三、典型应用;四、销售策略;2、图书馆行业客户：高校图书馆、国家图书馆、省图、市图、区图、县图等需求：特色馆藏，期刊，论文，图书等 3、集成商客户：方正电子、方正阿帕比、同方知网、万方数据、书生、龙源等需求：数字出版、资料加工、档案数字化等需求;