- 3
- 0
- 约1.32千字
- 约 22页
- 2019-08-30 发布于湖北
- 举报
文通TH-OCR资料数字化系统; 专业的档案、公文、图书、剪报册等纸介质文档及电子文档的数字化工具。
1.系统特点:
双层PDF技术及版式还原技术处于业内领先水平
单字识别率达到行业内领先水平
题录信息可以自定义
工序可以自定义
2.应用领域
政府部门
出版社
图书馆
电力行业
报社
;二.软件简介
;2.管理端;2.1管理端简介:
角色管理
角色管理分为:角色创建、修改、删除、成员管理
用户管理
用户管理:用户管理包括添加用户、用户资料修改、用户权限设置
工作量统计
按照工作量、时间段等进行各种统计及生成报表
题录数据设置
根据客户要求进行题录项的设置;3.加工端
;
加工工序选择
生成加工工序
数据流通道; 自动倾斜校正
二值化
去装订孔
去黑边
去杂点; 可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本、竖排文本、图像、表格四种类型。用户也可以根据需求,进行手动版面分析。;识别核心
流程版内置文通科技最新研发的高性能文字识别引擎,识别率达99.8%以上。
Unicode编码
采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。
XML技术
系统基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。;可以进行简繁日韩英五种语言的文字识别:
简体多体
繁体多体
简体全字集
繁体全字集
手写体
纯英文
日文
韩文;横向校对
在识别结果区域中,通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。
浮动跟踪条可以提高横向校对的速度,它是将识别的原始图像块跟踪显示在识别结果上,使识别结果与原始图像一一对应的显示,直观、方便、快捷;
查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。
集字校对编辑器重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。
校对效率高,不易疲劳。
把集字校对???结果与传统方法校对的结果进行比较、综合,就能得到最高的查错和纠错效果,得到尽可能低的错误率和最好的最终结果。;;识别结果经修改编辑后,可根据需要将文档存为RTF、PDF或直接保存为TXT格式。
导出为PDF格式
导出为RTF格式
导出为TXT格式
导出题录数据;PDF中的文字层用于查询、检索、利用,图像层用于浏览,提供给用户多种应用方式。
图像部分压缩存储。对黑白图像采用G4压缩,对彩色、灰度图像采用JPEG压缩。文字部分所占空间极小。整个文件与压缩过的图像文件大小相差无几。;题录著录:根据题录项要求录入题录数据;题录校验、全文文件检查、题录项修改、数据导出或上传;三、典型应用;四、销售策略;2、图书馆行业
客户:
高校图书馆、国家图书馆、省图、市图、区图、县图等
需求:
特色馆藏,期刊,论文,图书等
3、集成商
客户:
方正电子、方正阿帕比、同方知网、万方数据、书生、龙源等
需求:
数字出版、资料加工、档案数字化等需求;
原创力文档

文档评论(0)