文通THOCR资料数字化系统.pptVIP

  • 3
  • 0
  • 约1.32千字
  • 约 22页
  • 2019-08-30 发布于湖北
  • 举报
文通TH-OCR资料数字化系统; 专业的档案、公文、图书、剪报册等纸介质文档及电子文档的数字化工具。 1.系统特点: 双层PDF技术及版式还原技术处于业内领先水平 单字识别率达到行业内领先水平 题录信息可以自定义 工序可以自定义 2.应用领域 政府部门 出版社 图书馆 电力行业 报社 ;二.软件简介 ;2.管理端;2.1管理端简介: 角色管理 角色管理分为:角色创建、修改、删除、成员管理 用户管理 用户管理:用户管理包括添加用户、用户资料修改、用户权限设置 工作量统计 按照工作量、时间段等进行各种统计及生成报表 题录数据设置 根据客户要求进行题录项的设置;3.加工端 ; 加工工序选择 生成加工工序 数据流通道; 自动倾斜校正 二值化 去装订孔 去黑边 去杂点; 可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本、竖排文本、图像、表格四种类型。用户也可以根据需求,进行手动版面分析。;识别核心 流程版内置文通科技最新研发的高性能文字识别引擎,识别率达99.8%以上。 Unicode编码 采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。 XML技术 系统基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。;可以进行简繁日韩英五种语言的文字识别: 简体多体 繁体多体 简体全字集 繁体全字集 手写体 纯英文 日文 韩文;横向校对 在识别结果区域中,通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。 浮动跟踪条可以提高横向校对的速度,它是将识别的原始图像块跟踪显示在识别结果上,使识别结果与原始图像一一对应的显示,直观、方便、快捷; 查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。 集字校对编辑器重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。 校对效率高,不易疲劳。 把集字校对???结果与传统方法校对的结果进行比较、综合,就能得到最高的查错和纠错效果,得到尽可能低的错误率和最好的最终结果。;;识别结果经修改编辑后,可根据需要将文档存为RTF、PDF或直接保存为TXT格式。 导出为PDF格式 导出为RTF格式 导出为TXT格式 导出题录数据;PDF中的文字层用于查询、检索、利用,图像层用于浏览,提供给用户多种应用方式。 图像部分压缩存储。对黑白图像采用G4压缩,对彩色、灰度图像采用JPEG压缩。文字部分所占空间极小。整个文件与压缩过的图像文件大小相差无几。;题录著录:根据题录项要求录入题录数据;题录校验、全文文件检查、题录项修改、数据导出或上传;三、典型应用;四、销售策略;2、图书馆行业 客户: 高校图书馆、国家图书馆、省图、市图、区图、县图等 需求: 特色馆藏,期刊,论文,图书等 3、集成商 客户: 方正电子、方正阿帕比、同方知网、万方数据、书生、龙源等 需求: 数字出版、资料加工、档案数字化等需求;

文档评论(0)

1亿VIP精品文档

相关文档