浅析汉字识别技术在档案管理工作中的应用.docVIP

 浅析汉字识别技术在档案管理工作中的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 浅析汉字识别技术在档案管理工作中的应用

浅析汉字识别技术在档案管理工作中的应用 汉字识别技术(简称OCR)可以理解为是让 计算 机认字的技术。它通过光电信号转换,即文本数据。  一、汉字识别技术的 应用 价值 汉字识别技术的应用价值主要体现在两个方面:  一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源。  首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的 重要 历史 ,对我国 现代 化事业的 发展 ,对精神文明和物质文明的建设都有着非常重要的利用 价值。但这部分档案的 内容 都没有文本数据,或者说都只是固定在纸质载体上的死信息。既 使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代 社会 对档案 信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相 当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值 就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数 据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。  另一方面,提供了一种新的档 案目录数据的录入方式。  应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然 目前 汉字键盘录入的 方法 有许 多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需 要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当 比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是 影响 一些档案部门 建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉 ”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且 ,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像 和文本等,效果就此较理想了。  二、汉字识别后生成的文本数据的属性 问题 。  原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品, 因此不具有档案的原始性。  知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存 在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。  汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上, 比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢 失等属性。因此具有更强的信息性。  汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原 始性的基本属性,因为它们是印刷品或出版物的本源信息。  由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。  三、汉字识别技术的应用方式  汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应 用方式有:  (一)利用者阅读纸质档案的 内容 之后,对其所需要的内容进行扫描和汉字识别,或打印出统 一格式的利用摘录,或直接提供文本拷贝。 这种利用方式的优点主要有: 1方便用户,可减少信息利用过程中的重复劳动; 2不给档 案人员增加建库的工作负担; 3节省建库所需的经费开支。其缺点主要有: 1不能为全文 检索提供数据,实现深层次开发档案信息资源的目的; 2存在对同一档案内容重复进行扫 描和汉字识别的可能性。  (二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。  (三)扫描、保存图像并提供利用,

文档评论(0)

duanjiaocuzhanl + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档