- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京数字档案馆项目数据清理情况分析
摘要:目前由于数字档案馆的投入运行,各类档案数据 的存储数量急速增加。与此同时,档案数据质量随着脏数据 的出现受到很大影响,针对数据质量的清理工作势在必行。 本文根据北京市档案馆的工作经验整理出档案数据质量存 在的典型问题,提出了数据清理的基本方法和步骤,为今后 档案工作数据清理提供相关经验和建议。
关键词:数字档案馆数据质量脏数据数据清理 北京市档案馆档案管理系统经过十余年的应用,目前 积累的存储数据非常庞大,其中档案机读目录1400余万条, 档案数字化副本7000余万页,存储量达到80TB。由于数据 库设计约束不足、数据录入错误等多种原因导致系统中存在 脏数据。[1]这些数据直接拉低了档案数据质量,影响档案检 索查询效果。随着北京市数字档案馆项目的深入推进,为更 好地配合北京数字档案馆项目建设工作,北京市档案馆在 2016年开展了档案数据集中清理工作。
、北京市档案馆现有数据情况
北京市档案馆馆藏数据主要包括:各类档案数字化副 本、电子文件、档案机读目录数据、档案系统管理数据等。 其中档案系统管理数据通常包括档案实体表、档案存址表、
档案原缺表、利用者信息表、调归卷信息表等数据。
这些数据可分为结构化数据和非结构化数据两类。结 构化数据是指存储在数据库里,可以用二维表结构来逻辑表 达实现的数据。非结构化数据无法用数字或统一的结构表 示,如文本、图像、声音、网页等,称之为非结构化数据。 结构化数据包括档案机读目录数据和档案系统管理数据。非 结构化数据包括各类数字化副本、电子文件、数码照片等。 两类数据存在问题和解决的方法不同。结构化数据整体存储 在数据库中,数据清理依赖数据库执行指令完成。非结构化 数据是以单个文件形式存储在磁盘驱动器中,可以人工进行 清理,但当数据量非常大的情况下,则需依靠定制开发计算 机程序完成。在向北京数字档案馆系统迁移数据的过程中, 纸质档案数字化副本和档案机读目录是存在问题最多、清理
工作量最大的两类数据资源。因此,数据清理的重点也集中 在纸质档案数字化副本和档案机读目录数据上。
二、北京市档案馆数据质量存在的典型问题 档案机读目录数据存在以下四类问题:
重复数据
\lz/:据重复主要有两种情况,一种是在同一个库表中存
\lz/
:据重复主要有两种情况,一种是在同一个库表中存
在全部字段值完全相同的记录;另一种是在不同的库表中存 在相同的记录。产生的主要原因均为数据被重复导入,数据 库没有唯一性校验造成的。应保留一份数据,删除重复数据。
缺失数据
数据库表中很多记录缺失关键字段值,关键字段例如 “全宗号”“目录号”“案卷号”“档号”“题名”“开控状态”等字段。 产生问题的主要原因是目录在手工录入过程中遗漏造成的, 数据库在设计上完整性约束不足也是原因之一。这些关键字 段值应进行补充以保证数据检索、利用的需求得以满足。
错误数据
数据库表中有的记录中“档号”字段值编制错误,例如 照片档案档号结构应该是“全宗号-目录号-案卷号-张号”,但 是实际录入的是“全宗号-目录号-案卷号”。有的记录赋值错 误,例如有的“张页数”字段中含有“+”等非法字符,其值域范 围本应仅限于正整数。有的记录编制位数不足,例如“起始页 号”字段值按照目前标准应该是5位,但是早期的记录只有3 位或4位。这些错误的原因有的是由于手工录入错误造成的, 有的是由于字段值编制标准发生变化造成的。错误的数据应 通过数据清理进行修正。
无效数据
、PZ
、PZ
:据库表中的历史测试数据,暂存数据等,应通过清
理工作直接删除
数字化副本数据存在四类问题
1.数据命名不规范
数字化副本文件命名有如下几类:3位流水号.tif、4
位流水号.tif、5位流水号.tif、a_p流水号.tif、档号.tif。产生 这种情况的原因是由于不同时期数字化加工采用的标准不 同,还有一些不符合规范采用手工命名导致的特殊命名方 式。不符合命名规范的数字化副本在数据管理和数据挂接中 存在隐患,容易产生挂接错误等问题,应采用统一的命名标 准,保证数据在案卷级和文件级挂接的可靠性。
数据质量不可靠
个别数字化副本存在无法打开的情况,属于数据扫描 质量问题。错误的数据会导致无法挂接,系统无法正常读取 数据。可以使用软件检测图像的可读性,保证数据质量。
数据保存不唯一
有些档案的数字化副本在系统中存在两份,彩色一份、 黑白一份,黑白的是早期的数字化成果,彩色的是近期数字 化成果。重复数据不利于数据管理,也浪费存储空间,选取 图像质量好的副本进行存储即可。
4.存储方式不今y —
数据在磁盘上的存储方式不同,存在多种形式。有在 线存储管理方式和离线存储脱机管理方式两类。在线存储管 理方式使用不同的系统其数据具体存储方式也不相同。建议 将
原创力文档


文档评论(0)