【培训课件】-古籍数字化技术.ppt

下载文档 降价啦

8
0
约6.39千字
约 48页
2018-06-29 发布于浙江
举报
版权申诉
保障服务

【培训课件】-古籍数字化技术.ppt

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

【培训课件】-古籍数字化技术

二、OCR 的基本原理和工作流程（一） OCR 的基本原理简单地说，就是通过扫描仪将一份文稿的图像输入给计算机（或者说是计算机通过扫描仪获取图像），然后由OCR软件取出每个文字的图像，并将其转换成文字的编码。其具体工作过程是，计算机OCR软件接受文稿的数字图像，然后利用各种模式识别算法分析文字形态特征，判断出文字的标准编码，并按通用格式存储为计算机的文本文件格式。其中文字识别是OCR的核心技术。（二） OCR 的工作流程二、OCR 的基本原理和工作流程常用的OCR软件尚书OCR 方正OCR 紫光OCR 汉王OCR 三、常用OCR 软件现在几乎所有的平板式扫描仪都捆绑了OCR 软件，多数机型的随机软件中不仅有中文版OCR 还有英文版OCR，其实大部分中文版OCR 都兼有识别英文的功能。目前市场比较成熟的中文版OCR 软件有清华文通、尚书、蒙恬、汉王等。这里以清华TH-OCR XP为例，介绍OCR软件的使用。清华TH-OCR XP 能够适应超过一百种Windows字体，识别全部简体国标一二级6763个字符，繁体13000多字符。在文档识别过程中，对于每个区域可以设定不同的字体，例如一篇文档中的大段英文可以设为英文识别，以提高识别率。TH-OCR XP 支持多任务，可以在识别一篇文章的同时扫描或编辑其它文档。四、清华 TH-OCR XP 软件的使用（一）OCR 软件简介在所购买紫光扫描仪的随机光盘中，有清华 TH-OCR XP 的安装程序。打开相应的文件夹，双击 setup.exe 文件开始安装，首先进行语言设置，如下图所示（实际安装）。四、清华 TH-OCR XP 软件的使用（二）清华 TH-OCR XP 软件的安装清华TH-OCR XP的窗口如其他Windows程序窗口一样，简洁明快、布局合理、容易上手。窗口分为标题栏、菜单栏、工具栏、工程管理区、图像和识别操作区、状态栏，如下图所示（结合实际窗口介绍）。四、清华 TH-OCR XP 软件的使用（三）清华 TH-OCR XP 的窗口完整的文字识别操作过程包括：设置、扫描、版面处理、识别、编辑修改、输出六个基本步骤，如下图所示。四、清华 TH-OCR XP 软件的使用（四）清华 TH-OCR XP 软件使用的基本流程说明：为了方便，这里使用已经扫描好的图片供OCR 。实际操作时，也可以在OCR软件中扫描文稿并直接加载扫描获得的图片，然后进行识别。四、清华 TH-OCR XP 软件的使用（五）实际使用清华 TH-OCR XP 软件（处理几个文件） 1 ．打开清华 TH-OCR XP 软件，并装入要识别的图片（或通过扫描获得）。 2 ．进行版面处理，包括倾斜校正、版面处理等。 3 ．进行识别。 4 ．后处理。 5 ．导出。在使用OCR软件进行文字识别时，必须认真学习OCR有关知识和理论，特别是系统设置、版面处理和编辑修改的理解和具体操作，并结合实践不断积累经验，摸索出切实可行的解决方案。下面是一些有价值的提示，要认真理解和体会。 1．在扫描仪中一定要放正原稿，不能位置倾斜，否则扫描出来的原稿也会是倾斜的，从而造成OCR软件无法正确识别。另外，在放置扫描原稿时，把扫描的文字材料一定要摆放在扫描起始线正中，以最大限度地减小由于光学透镜导致的失真。 2．选择适当的分辨力也是很重要的，一般来说，使用200～300dpi的分辨力进行扫描比较合适，如果分辨力太高也没有太大意义，只会增加扫描时间和文件的大小。 3．在扫描识别报纸或其他半透明文稿时，背面的文字透过纸张混淆文字字形，对识别会造成很大的障碍。遇到该类扫描，可以在扫描原稿的背面附盖一张黑纸，并增加扫描对比度，即可减少背面模糊字体的影响，提高识别正确率。四、进行文字识别时的注意事项 4．对扫描后生成的图像，用图像处理软件擦掉图像污点，包括原来版面中的不需要识别的插图、分隔线等，使文字图像中除了文字没有一点多余的东西，这可以大提高识别率并减少识别后的修改工作。 5．版面分析。如果需要识别的原稿包含多种字号、多种字体的文字、多个文本区块、图文混排等复杂版面，就需要进行版面分析，将要识别的内容划分为一个块，这样OCR软件才能正确识别。 6．多页批识别功能。若需识别的文章有多页组成，使用OCR的批量识别功能十分方便。首先将多页文件以TIF的格式按页面顺序依次扫描后存盘。而后再打开它们，一次性进行批量识别，好处是速度快，效率高。一般来说，批量识别的文件版面不要太过复杂，文件页数也要根据计算机配置