- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
档案数字化与存储格式比较研究.
档案数字化扫描与存储格式比较研究 收藏
作者:傅荣校,翁敏曦作者:傅荣校,翁敏曦
一、引言
档案数字化是指“利用数据库技术、数据压缩技术、高速扫描技术等技术手段,将纸质文件、声像文件等传统介质的文件和已归档保存的电子档案,系统组织成具有有序结构的档案信息库。”①档案的数字化可以节省档案存贮空间,缓解库房压力,也可以减少因对档案原件频繁使用而造成的磨损,妥善解决珍贵档案文献的利用问题,有利于保护档案原件,尤其是珍贵档案的保存。目前,数字化在档案事业中发挥着重要的作用,已成为档案工作发展的必然趋势。
二、档案数字化与扫描技术
档案数字化实现文本的输入,主要是采用扫描方式将纸质的文件与档案转换为数字化的形式。扫描加工是通过中高速扫描仪和专用扫描软件将整理和分检好的档案资料批量转化成图像文件,并自动实现图像压缩存储的过程。
(一)国家规范中的有关标准
档案数字化直接标准除《电子文件归档与管理规范》外,就是《纸质档案数字化技术规范》。这一技术规范指出,“扫描应该根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。”另外,“纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。”②
扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具体又细分为三种:“页面为黑白两色,并且字迹清晰、不带插图的档案,可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。”③
扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。因为高分辨率容易使文件遭到复制,基于此,国家规范中规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,则可以适当提高分辨率。而需要进行OCR汉字识别的档案,扫描分辨率一般建议选择≥200dpi。
(二)实际操作中的做法
实际工作中,档案部门根据档案本身不同情况,一般都采用各类扫描仪进行扫描,数码相机则较少使用。另外,实际扫描中受档案状况或扫描设备所限,也存有一些暂时无法进行数字化转换的档案,如纸张过于破损、发脆,或者某些尺寸过大的图纸等。而这些只能等待设备或者技术的更进后才可以解决。
色彩模式的选择是依据现有的设备以及档案本身状况而定的,可以遵守循序渐进的原则。比如杭州市档案馆在进行纸质档案数字化时,一期以黑白扫描为主,二期对红头文件及其他带有红章的文件进行彩色扫描,三期则全部进行彩色扫描。无疑,彩色扫描的层次更加丰富,清晰度更高,可以更真实地显示档案原貌。
分辨率的选择与设备关系很大,在不同地区、不同部门也有所差别。如杭州市档案馆在纸质档案数字化的一期工程中,就将扫描分辨率定为300dpi,浙江省档案馆的数字化扫描分辨率一般在200~300dpi左右,有的高达600dpi;而在一些设备相对比较落后的部门与地区,其扫描分辨率大都是按照国家规范来设定的,甚至于很多部门还达不到200dpi。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。
(三)扫描技术发展趋势
扫描技术中最主要的是色彩模式选择和分辨率选择。
色彩模式无疑会朝着彩色扫描发展,而分辨率的选择需要根据实际业务进行灵活设置。一般情况下,为了满足网络化查询利用,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,具体参数可以根据扫描清晰度和质量因素进行综合选择。对于一些特殊的利用如承办展览等可以采用较高的扫描分辨率来进行。值得注意的是,分辨率的选择既不可过低,也不可过高。如福建曾采用了50dpi的扫描分辨率,虽然容量小、费用低,但是根本无法实现上网查询利用,等于做了无用功;另一方面,如果一味追求过高的分辨率,则会导致容量过大,对于网上资源的传播也是一种负担。
档案数字化后还要考虑文字识别(OCR)的运用,一般来说,文字识别主要用于全文检索之用,而非真正将扫描后的图像文件还原为文档,因而,就这一点看,不要以OCR的识别率来设置扫描分辨率,《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率≥200dpi,这是一个比较中性的标准。
三、数字档案的存储格式
(一)文档数据的存储
如何在数字化过程中将馆藏档案统一转变为某些具有国
文档评论(0)