- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
光学字符识别在数字博物馆应用
光学字符识别在数字博物馆应用
【摘 要】 本文阐述了光学字符识别概况和提高光学字符识别率应注意的问题,分析了光学字符识别技术的优势,探讨了光学字符识别在博物馆的应用问题。指出,在博物馆数字化建设中,很多野外拍摄的文物古迹图片、名人字画、书籍等需要在网上展出,而图片里面的文字却不能被计算机索引,手工输入又比较慢。借助光学字符识别后,这些困难就迎刃而解了,在保证录入质量的同时还极大的提高了工作效率。
【关键词】 博物馆;数字化建设;光学字符;应用
在信息时代,数字博物馆是传统博物馆面向新世纪、适应新发展要求的产物。要建立数字博物馆,首先要使博物馆数字化,很多纸张的文档信息要转变成数字化信息。然而,扫描所产生的电子文档上只是以图形文件出现,不能直接引用、修改、查询,非常不方便,而且利用率也很低。如果能得到文本文档,以上的不足就能轻易地解决了。要得到文本文档,便要应用到光学字符识别技术。
一、光学字符识别概况
光学字符识别是通过光学字符识别软件,将含有文字的图像的图形文件,转换成文本文件。光学字符识别的工作主要有:输入影像、处理影像、文字特征抽取、比对识别、校正,输出保存。
二、提高光学字符识别率应注意的问题
提高数字化过程中的光学字符识别率就意味着减少工作上的人力、物力和精力,提高文档数字化工作的效率,降低了文档数字化的成本。要提高光学字符识别率,关键应注意以下几点:
1、光学字符识别软件的选择
光学字符识别的软件有清华紫光、汉王、清华文通等。这些软件可以从网上下载,但要选择图像质量好并且图像中的文字都是标准字体的情况下识别率才能达到预想的效果,否则便错误百出。
2、扫描参数的设置
在使用光学字符识别处理图形文件时,首先要设置扫描参数,这样光学字符识别率才会提高。
(1)设定分辨率。分辨率大时,一些存在扫描失真的扫描仪,容易造成错误的识别,识别率降低,文件变大,不便于存储和传输。分辨率小,图像的像素点就少,光学字符识别软件得不到足够图像信息,识别率就不会高。因此分辨率的选择很重要,要根据不同的情况选择不同的分辨率。经验表明,300dpi在光学字符识别中最为合适。
(2)设定色彩模式。一般来说,黑白模式扫描是进行光学字符识别普遍采用的方式,其正确率和速度比其它的扫描模式图像要高,其原因是文本通常是黑白的,别的颜色会造成信息的干扰。其次是灰度模式的应用率,对于文字字迹较淡或纸张泛黄的文档,对其扫描第一步将色彩模式设成灰度,按灰度不同的级别进行图像划分,再将其像素点定为白色,其它为黑色,达到黑白模式。
(3)设定亮度和对比度。文档底色较浅或较深可设定为灰度模式,就需要通过设定亮度和对比度来进行调节。文档较浅,可调低亮度;文档较深则调高亮度,亮度和对比度的调整,使得图像更加黑白分明。
3、校对
因为任何光学字符识别软件的识别率都不能做到100%。因此,人员应该仔细校对。光学字符识别软件识别完后,有两行显示,一个是识别结果,另一个是图像。一些光学字符识别软件还会用另一种颜色显示出来加以区分,利于提醒用户。
三、光学字符识别技术的优势
1、录入速度快、准确率高、省时省力
光学字符识别技术与手工录入相比较,有着很大的优势。其速度比手工录入快;光学字符识别文字识别的质量也比手工录入高,其出错率也低。因此,光学字符识别既节省了人力,又优化了资源配置。
2、拓宽文档用户利用面
采用光学字符识别,将纸质文档数字化,能够使文档信息实现全文检索、编辑修改、网络传输,从而方便用户对文档内容的查询与利用,拓宽其利用面,多方面地服务于公众。
四、光学字符识别在博物馆的应用
在博物馆数字化过程,光学字符识别技术的运用主要是把纸质载体文案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多页的PDF文件,再利用光学字符识别软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到文档信息的全文检索。
在实际文档全文数字化过程中,一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用光学字符识别软件识别并判断识别效果,并进行必要的调整和修复才可以到达全文数字化的要求。
在扫描生成页面后,光学字符识别技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合文档数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流光学字符识别软件以及处理、分析、校对每页文档全文数字化用时在
您可能关注的文档
最近下载
- 郑州市第七高级中学2024-2025学年高一上学期第一次月考物理试卷.docx VIP
- 《民族音乐鉴赏方法:音乐鉴赏课教学教案》.doc VIP
- 《中国传统民族音乐赏析:音乐鉴赏课程教案》.doc VIP
- 水果店的创业计划书.docx VIP
- 一种模块式双向卡瓦锚定机构.pdf VIP
- 2022年内蒙古农业大学硕士研究生入学考试水文学原理考研真题.pdf VIP
- 高中英语语法讲义——定语从句.pdf VIP
- 2022最新版个人征信模板(可编辑-带水印).docx VIP
- 2022年内蒙古农业大学硕士研究生入学考试植物生理学考研真题.pdf VIP
- DDI领导力精要完整版-教学课件.pptx VIP
文档评论(0)