THOCR2009文通数据录入工厂.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 北京文通信息技术有限公司 TH-OCR 2009文通数据录入工厂 ChenJZ@ 产品概述 随着信息社会的发展,科技的进步,目前,我国的信息产业,面临着电子出版、Internet网上出版、建立数字图书馆的新型发展。我国现有常见报刊3000余种,各类杂志4500余种,报刊、杂志的电子出版已经成为媒体潮流和竞争的热点。百科全书、地方志以及建筑、金融、医药、法律等各行各业的档案资料、行业信息也都有待于数字化和电子出版;数字图书馆建设也成为国家关注的重点项目。 如何以低成本、快速度、高质量地将我国浩如烟海,取之不竭的文档资料和行业信息数字化,是“TH-OCR 2009文通数据录入工厂”能够解决的问题。TH-OCR 2009文通数据录入工厂是在国家863计划、国家自然科学基金长期支持下,清华大学电子工程系智能图文信息处理研究室长期汉字识别研究工作的基础上,在八六三计划863-306-ZD03-02-1重点课题和国家自然科学基金项支持下开发完成的。清华大学电子工程系的汉字识别技术一直处于国内外领先地位,是海量数据电子化首选,图书馆数据电子化必备,可以全方位实现与大型报社以及数据加工企业的立体链结与无缝合作。 软件功能 识别核心 TH-OCR 2009文通数据录入工厂内置文通科技最新研发的高性能文字识别引擎,中文汉字识别率达99.8%以上。英文、日文、韩文的识别率居世界领先水平。 Unicode编码 采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。 XML技术 系统基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。 版面还原 强大的版面还原技术,可将识别后的报刊、杂志、图书等多种形式的文档,通过还原字体、字号、版面位置、字体颜色等信息以原版原式呈现在读者面前,最终生成优质的全息PDF文档。 集字校对 集字校对是TH-OCR 2009文通数据录入工厂特有的文字校对技术,该技术打破了传统校对工具图像与识别结果文本比对显示的模式,将多篇文档中所有识别结果相同的字符图像集中呈现在一个视图中,给校对人员强烈的视觉冲击,让错字自动“跳”入校对人员的眼中,避免了校对人员因陷入文档的上下文语境而产生视觉疲劳,引起的校对准确率下降。同时,由于常用汉字集中在3000-4000个左右,面对海量文字的校对时,不会因文字量的上升带来相应的校对量的上升,仍只需校对这几千个不同的汉字,明显提高工作效率。 增量识别 增量识别功能允许用户只识别手工编辑修改过的或新增加的区域,而保留其他已经完成校对的文字区域,为用户使用提供最大的灵活性与方便性。 自学习 针对古籍、科研等特殊领域文档中经常出现的特殊文字,即使不在国家标准范围以内或者TH-OCR字库中并没有支持,用户也可通过自学习功能,将这些文字的图像学习进入系统,使得调整后的核心可以支持这些文字的识别。 双层PDF批量制作 将指定的图像或者文件内的图像批量转化为双层可检索PDF。 全新简捷的界面 页面 视图区 文本 视图区 缩略图 和 列表栏 图像 视图区 索引栏 工具栏 步骤一:导入图像 TH-OCR 2009可以通过直接连接扫描仪来得到扫描文件,也可以直接从本地或者网络文件夹中导入已存在的图像文件。 TH-OCR 2009可以创建一个工程,然后在工程中创建文件夹或者直接导入页,可以对整个工程和工程内的文件夹进行批量处理、识别以及导出 扫描图像 导入已存在的图像 步骤二:图像处理 TH-OCR 2009提供了简单的图像处理功能,可以满足基本的图像处理需求 旋转图像,可以将扫描得到的图像或者导入进来的图像进行旋转来得到正确的图像阅读方向 删除区域,对不需要的区域可以该功能将区域抹白 裁剪图像,如果只需要保留图像的某一区域,可以使用裁剪功能 反转图像,对一些黑底白字的图像,可以使用该功能使其反转变成白底黑字的图像 倾斜校正,对扫描时因放置不当而造成的图像倾斜可以进行自动或者是手动倾斜校正,通过增强图像质量,提高识别率 图像处理实例 反转图像 倾斜校正 裁剪 删除区域 TH-OCR 2009可以对如杂志、书本、报刊等进行自动版面分析。TH-OCR 2009将版面分为横排文本、竖排文本、图像、表格四种类型,正确的版面分析可以提高识别效果。用户也可以根据需求,进行手动版面分析。 步骤三:版面分析 竖排文本 图像 表格 横排文本 自动调整区域边界 对黑白二值的图像,TH-OCR 2009可以自动进行区域调整,使区域自动适应到区域的边界。 删除被覆盖的区域 该功能可以在进行新区域划分的时候,自动将新区域所覆盖的区域

文档评论(0)

kabudou + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档