网站大量收购独家精品文档,联系QQ:2885784924

【培训课件】-古籍数字化技术.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【培训课件】-古籍数字化技术

二、OCR 的基本原理和工作流程 (一) OCR 的基本原理 简单地说,就是通过扫描仪将一份文稿的图像输入给计算机(或者说是计算机通过扫描仪获取图像),然后由OCR软件取出每个文字的图像,并将其转换成文字的编码。其具体工作过程是,计算机OCR软件接受文稿的数字图像,然后利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件格式。其中文字识别是OCR的核心技术。 (二) OCR 的工作流程 二、OCR 的基本原理和工作流程 常用的OCR软件 尚书OCR 方正OCR 紫光OCR 汉王OCR 三、常用OCR 软件 现在几乎所有的平板式扫描仪都捆绑了OCR 软件,多数机型的随机软件中不仅有中文版OCR 还有英文版OCR,其实大部分中文版OCR 都兼有识别英文的功能。目前市场比较成熟的中文版OCR 软件有清华文通、尚书、蒙恬、汉王等。这里以清华TH-OCR XP为例,介绍OCR软件的使用。 清华TH-OCR XP 能够适应超过一百种Windows字体,识别全部简体国标一二级6763个字符,繁体13000多字符。在文档识别过程中,对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设为英文识别,以提高识别率。TH-OCR XP 支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。 四 、清华 TH-OCR XP 软件的使用 (一)OCR 软件简介 在所购买紫光扫描仪的随机光盘中,有清华 TH-OCR XP 的安装程序。打开相应的文件夹,双击 setup.exe 文件开始安装,首先进行语言设置,如下图所示(实际安装)。 四 、清华 TH-OCR XP 软件的使用 (二)清华 TH-OCR XP 软件的安装 清华TH-OCR XP的窗口如其他Windows程序窗口一样,简洁明快、布局合理、容易上手。窗口分为标题栏、菜单栏、工具栏、工程管理区、图像和识别操作区、状态栏,如下图所示(结合实际窗口介绍)。 四 、清华 TH-OCR XP 软件的使用 (三)清华 TH-OCR XP 的窗口 完整的文字识别操作过程包括:设置、扫描、版面处理、识别、编辑修改、输出六个基本步骤,如下图所示。 四 、清华 TH-OCR XP 软件的使用 (四)清华 TH-OCR XP 软件使用的基本流程 说明:为了方便,这里使用已经扫描好的图片供OCR 。实际操作时,也可以在OCR软件中扫描文稿并直接加载扫描获得的图片,然后进行识别。 四 、清华 TH-OCR XP 软件的使用 (五)实际使用清华 TH-OCR XP 软件(处理几个文件) 1 .打开清华 TH-OCR XP 软件,并装入要识别的图片(或通过扫描获得)。 2 .进行版面处理,包括倾斜校正、版面处理等。 3 .进行识别。 4 .后处理。 5 .导出。 在使用OCR软件进行文字识别时,必须认真学习OCR有关知识和理论,特别是系统设置、版面处理和编辑修改的理解和具体操作,并结合实践不断积累经验,摸索出切实可行的解决方案。下面是一些有价值的提示,要认真理解和体会。 1.在扫描仪中一定要放正原稿,不能位置倾斜,否则扫描出来的原稿也会是倾斜的,从而造成OCR软件无法正确识别。另外,在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。 2.选择适当的分辨力也是很重要的,一般来说,使用200~300dpi的分辨力进行扫描比较合适,如果分辨力太高也没有太大意义,只会增加扫描时间和文件的大小。 3.在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,可以在扫描原稿的背面附盖一张黑纸,并增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率。 四 、进行文字识别时的注意事项 4.对扫描后生成的图像,用图像处理软件擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西,这可以大提高识别率并减少识别后的修改工作。 5.版面分析。如果需要识别的原稿包含多种字号、多种字体的文字、多个文本区块、图文混排等复杂版面,就需要进行版面分析,将要识别的内容划分为一个块,这样OCR软件才能正确识别。 6.多页批识别功能 。若需识别的文章有多页组成,使用OCR的批量识别功能十分方便。首先将多页文件以TIF的格式按页面顺序依次扫描后存盘。而后再打开它们,一次性进行批量识别,好处是速度快,效率高。一般来说,批量识别的文件版面不要太过复杂,文件页数也要根据计算机配置

文档评论(0)

138****7331 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档