网站大量收购独家精品文档,联系QQ:2885784924

文通thocr资料数字化系统.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文通thocr资料数字化系统

文通TH-OCR资料数字化系统; 专业的档案、公文、图书、剪报册等纸介质文档及电子文档的数字化工具。 1.系统特点: 双层PDF技术及版式还原技术处于业内领先水平 单字识别率达到行业内领先水平 题录信息可以自定义 工序可以自定义 2.应用领域 政府部门 出版社 图书馆 电力行业 报社 ;二.软件简介 ;2.管理端;2.1管理端简介: 角色管理 角色管理分为:角色创建、修改、删除、成员管理 用户管理 用户管理:用户管理包括添加用户、用户资料修改、用户权限设置 工作量统计 按照工作量、时间段等进行各种统计及生成报表 题录数据设置 根据客户要求进行题录项的设置;3.加工端 ; 加工工序选择 生成加工工序 数据流通道; 自动倾斜校正 二值化 去装订孔 去黑边 去杂点; 可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本、竖排文本、图像、表格四种类型。用户也可以根据需求,进行手动版面分析。;识别核心 流程版内置文通科技最新研发的高性能文字识别引擎,识别率达99.8%以上。 Unicode编码 采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。 XML技术 系统基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。;可以进行简繁日韩英五种语言的文字识别: 简体多体 繁体多体 简体全字集 繁体全字集 手写体 纯英文 日文 韩文;横向校对 在识别结果区域中,通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。 浮动跟踪条可以提高横向校对的速度,它是将识别的原始图像块跟踪显示在识别结果上,使识别结果与原始图像一一对应的显示,直观、方便、快捷; 查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。 集字校对编辑器重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。 校对效率高,不易疲劳。 把集字校对的结??与传统方法校对的结果进行比较、综合,就能得到最高的查错和纠错效果,得到尽可能低的错误率和最好的最终结果。;;识别结果经修改编辑后,可根据需要将文档存为RTF、PDF或直接保存为TXT格式。 导出为PDF格式 导出为RTF格式 导出为TXT格式 导出题录数据;PDF中的文字层用于查询、检索、利用,图像层用于浏览,提供给用户多种应用方式。 图像部分压缩存储。对黑白图像采用G4压缩,对彩色、灰度图像采用JPEG压缩。文字部分所占空间极小。整个文件与压缩过的图像文件大小相差无几。;题录著录:根据题录项要求录入题录数据;题录校验、全文文件检查、题录项修改、数据导出或上传;三、典型应用;四、销售策略;2、图书馆行业 客户: 高校图书馆、国家图书馆、省图、市图、区图、县图等 需求: 特色馆藏,期刊,论文,图书等 3、集成商 客户: 方正电子、方正阿帕比、同方知网、万方数据、书生、龙源等 需求: 数字出版、资料加工、档案数字化等需求;

文档评论(0)

sandaolingcrh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档