- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OCR技术应用
OCR技术应用
档案数字化过程中OCR技术的应用
苏州大学07档案班 许呈辰
指导教师 张照余
【摘要】本文首先对档案数字化过程中的OCR技术作了简单介绍,然后分析了OCR技术的优势和在档案数字化工作中的独特应用,最后探讨了提高OCR识别率的各种方法,以期对档案数字化工作人员有所借鉴。
【关键词】档案 数字化 OCR
信息时代,档案数字化已成为今后一段时期档案工作的重中之重,纸质档案扫描工作在各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在的文件,而非真正意义上的文本文件,也就是说,计算机只认识档案的外表,却不认识其内在文字,用户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作,这无疑对将来的电子档案利用工作造成了很大的不便。考虑到档案用户的利用需求,若要得到真正文本形态的电子档案,使档案数字化工作更加有效,更加彻底,便要应用到OCR技术。
一、OCR概况
所谓OCR(Optical Character Recognition),即光学字符识别,通俗点说,就是让计算机认字。其原理是通过专门的OCR软件,将含有文字的图像按字切割成可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征,通过比对标准特征库中的数据,判断出该文字在计算机中的标准编码,并按通用格式输出保存在文本文件中。
OCR的工作流程为:影像输入、影像前处理、文字特征抽取、比对识别、人工校正,最后将识别结果输出保存。①虽然一张图像真正用于软件识别的时间不到一秒,但前期和后期的加工处理不可小视,尤其是前两个环节的操作,往往决定了OCR软件的识别率,乃至整个OCR工作的效率。而后期人工校正环节,则是保证OCR工作质量的最直接环节。
二、OCR技术的优势及其在档案数字化过程中的应用
OCR技术相对于传统的手工录入方式来说,具有强大的优势。首先,OCR文字识别的速度远快于手工录入。根据国际通行的打字速度评级标准,即使是专业人员,每分钟也仅能输入150~240个字,而采用OCR技术,即使算上前后期的处理环节所花时间,其速度也绝对比前者快好多倍。其次,OCR文字识别的质量远高于手工录入。虽然由于各种因素影响,OCR技术的识别率很难达到100%,但比起大批量手工录入,其出错率要小得多。最后,OCR还节省了大量人力资源,优化了资源配置,使人员分配于更加有意义的工作。
对于档案数字化工作来说,OCR技术除了具有以上几个普遍的优势之外,还有其独特的用武之地:
1.创新著录标引方式
创建档案目录数据库是一项较基础的档案数字化工作,目前大多数档案馆都在进行这项工作,很多档案馆已建成较为完备的目录库。然而,各档案部门的档案条目基本都是通过手工录入的,既费时又费力,还很容易出错。尤其是一些档案,标题很长,又是印发又是转发,一个题名就占了好几行,要输入老半天。
OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能。工作人员可以直接从OCR后的全文中找到著录项(如题名、文号、责任者等),复制粘贴到目录数据库的相应字段中去。②但这么做必须先扫描档案全文、OCR,然后再输条目,颠覆了档案数字化工作的一般工作流程,因此可行性并不高。还有一种方法是先将档案卷内目录扫描、OCR处理,再复制粘贴条目,或通过特定的程序自动采集条目信息③。但由于很多卷内目录是手写的,OCR无法识别,只得依靠手工录入。相信随着未来技术的发展,OCR在这方面的应用一定能够有所突破。
此外,系统还可以对OCR后的档案全文进行词频统计、内容分析,从而自动提取关键词、主题词等标识符,一定程度上实现了档案内容的自动标引。
2.实现真正的全文检索
档案工作中所说的全文检索实际包括两种类型:一种是仅对档案目录数据库进行检索,找到相关条目后再打开相应的档案全文,目前档案馆大多采用这种检索方式,且尚有很多档案没有电子全文;另一种是真正的全文检索,即直接对档案全文库进行检索,而且是对档案全文进行逐字检索。很明显,后一种检索方式的查全率比前者要高出很多,使用户能从浩如烟海的档案馆藏中找到更多所需信息,更深入地开发利用档案信息资源。
而要实现真正的全文检索,自然离不开OCR技术,因为只有将扫描图像中的文字变成文本格式,才有可能对其中的文字进行逐字检索。
3.支持双层PDF技术
所谓双层PDF,就是一个PDF文件中的每一页都包含两层,上层是扫描所得到原始图像,下层是OCR识别的文字结果。这种技术在数字图书馆领域已得到广泛应用,我们在CNKI等数据库中检索到的PDF格式的电子文献大多采用了双层PDF技术。
由于采用双层PDF技术既能较好地保证档案的原真性,在用户需要时又能对档案中的文字进行选择、复制、搜索等处
您可能关注的文档
最近下载
- 《客户服务与管理》教案 第5课 学会使用即时通信工具.pdf VIP
- 民爆信息系统网路服务平台.pptx VIP
- 《QCNPC41-2001-防喷器判废技术条件》.pdf VIP
- 《客户服务与管理》(李清文)718-1教案 第2课 熟悉客户服务人员的综合素质要求.docx VIP
- 《客户服务与管理》(李清文)718-1教案 第3课 学会使用电话服务工具.docx VIP
- 3《峨日朵雪峰之侧》同步练习(含答案)统编版高中语文必修上册.docx VIP
- 第2课 让美德照亮幸福人生.pptx VIP
- 《峨日朵雪峰之侧》同步练习 统编版高中语文必修上册.docx VIP
- 海马普力马PREEMA 1.8L、1.6升 电路图07-发动机和变速箱控制.pdf VIP
- 《客户服务与管理》教案 第1课 初识客户服务与管理.docx
文档评论(0)