- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
纸质档案数字化中需要注意的几点问题.doc
PAGE
PAGE 4
纸质档案数字化中需要注意的几点问题
【摘要】在现今档案数字化已成为一种潮流,推动馆藏档案数字化建设,逐步实现对数字档案信息资源的网络化管理以及多渠道提供档案信息资源利用已成为大势所趋。在现今阶段各个档案部门大多数已开展档案数字化工作,对档案数字化工作有了一定经验,数字化的基本工作流程都能做的很好,但面对海量的馆藏和有限的经费如何保质保量地完成档案数字化是一个值得深入探讨的问题。
【关键词】纸质档案;数字化;鉴选;储存格式;OCR;安全性
档案资源的数字化是当前数字化档案建设工作的基础、关键,在现今阶段各个档案部门大多数已开展档案数字化工作,并已积累了一定经验,建立了较好的工作流程。本文仅就目前纸版档案数字化工作中需要注意的几点问题进行论述。
一、档案数字化必要性的鉴选
鉴选是企业档案数字化处理的第一步,档案数字化处理需要大量的资金和人力投入,所以鉴选显得尤为重要。鉴选要遵循以下原则:一是以有效性为原则,注重内容的真实性。不管是原件,还是复制件,只要内容是真实的,都应该鉴选为数字化处理的范围。二是以利用为原则,具有较高利用价值的档案应进行数字化处理,以便利用者能得到快捷方便的服务。对利用频率过低的档案可暂缓进行数字化转换,甚至不进行数字化转换。三是以抢救性保护为原则,防止珍贵档案缺失。在鉴选时,对一些形成时间较长,历史价值较高,甚至已经破损的档案,本着抢救的需要出发,可先考虑进行数字化处理。四是以系统性为原则。数字化后的档案必须具有逻辑上的完整性与系统性,不能只数字化其中一部分或几部分,保证其信息的关联性,增加其利用的可靠性。
二、选择数字档案的存储格式
扫描之后图像文件有许多存储格式,长久可行的存储优势决定文档存储格式。下面对实际工作中经常使用的几种存储格式进行比较,以便于利用。
JPEG格式是目前网络上最常用的图像格式,它可以把文件压缩到最小的格式。由于它是一种有损压缩,图像中重复或不重要的资料会被丢失,因此容易造成图像数据的损伤,压缩比越大,品质就越低,不过JPEG压缩技术也能在获得极高的压缩率的同时能展现十分丰富生动的图像。由于JPEG格式的文件尺寸较小,下载速度快,所以它已成为网络上最受欢迎的图像格式。
JPEG2000作为JPEG的升级版相比优势明显,同时支持有损和无损压缩。且向下兼容,随着档案信息网络传输的开展,这一格式也可以成为档案数字化的标准格式。
TIFF格式是一种主要用来存储包括照片和艺术图在内的图像的文件格式,可以制作质量非常高的图像,因而经常用于出版印刷。TIFF格式为无损压缩文件,压缩率低,占用空间较大,但是画质高于JPEG格式,一般应用于珍贵档案的数字化。
CEB格式文档转换过程中采用了“高保真”技术,从而可以使CEB格式的电子书最大限度地保持原来的样式,目前在政府机关电子政务公文处理中使用比较广泛。
PDF格式,可以保证打印精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图象。这种文件格式与操作系统平台无关,这一特点使它成为数字化信息传播的理想文档格式。
纸版档案数字化可以根据用途分别选择存储方式。对于主要用于利用用途的可以选择尺寸较小的格式,可以有较快的网络传输时间和调用速度。对以备份为目的的可以选择图像清晰、分辨率高的存储格式。但也应考虑到到存储成本和维护费用。在实际工作中选择何种存储方式受经费、软硬件设备、目的等多方面因素的制约,在数字化工作中可根据自己的实际情况的选择适合自己的存储方式。
三、提高OCR文字识别率
OCR文字识别软件可以把图片转换成可以编辑的文字,支持JPG、PNG、GIF、BMP、DOC等图片格式。在对数字化档案进行OCR识别后,生成可以直接检索的文件,可以在文件中进行选择、复制与检索的操作,然后进行快速的关键词的查找,从而实现对数据的管理和利用。用于OCR识别的纸质档案扫描最好选择≥200dpi分辨率不要超过300dpi,过高的分辨率会造成OCR辨认困难,特别是在一些存在轻微扫描失真的扫描仪上。在扫描中做到以下几点:尽量将扫描原稿放正,否则会使字符识别困难;在扫描前人工手动清除稿件上的各种干扰小点,避免形成怪异字符;在扫描前对原稿进行水平矫正,保证所有文字的水平;对于一些纸张较薄的稿件,扫描时可能会因为透明而受到背面文字干扰,此时应使用灰度扫描。
四、注意档案数字化的信息安全性
一是确保数字化档案信息内容不被泄露。要建立相应的规章制度和技术手段,根据其信息价值的不同,对扫描档案进行安全风险评估,遵循原始档案的保密性,对一些重要的核心档案可以脱机备份,防止数据泄密。采取委托加工方式数字化服务的,必须与承包
文档评论(0)