北京数字档案馆项目数据清理情况分析.docVIP

下载本文档

15
0
约2.38千字
约 7页
2019-04-27 发布于广东
举报
版权申诉

北京数字档案馆项目数据清理情况分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北京数字档案馆项目数据清理情况分析摘要：目前由于数字档案馆的投入运行，各类档案数据的存储数量急速增加。与此同时，档案数据质量随着脏数据的出现受到很大影响，针对数据质量的清理工作势在必行。本文根据北京市档案馆的工作经验整理出档案数据质量存在的典型问题，提出了数据清理的基本方法和步骤，为今后档案工作数据清理提供相关经验和建议。关键词：数字档案馆数据质量脏数据数据清理北京市档案馆档案管理系统经过十余年的应用，目前积累的存储数据非常庞大，其中档案机读目录1400余万条，档案数字化副本7000余万页，存储量达到80TB。由于数据库设计约束不足、数据录入错误等多种原因导致系统中存在脏数据。［1］这些数据直接拉低了档案数据质量，影响档案检索查询效果。随着北京市数字档案馆项目的深入推进，为更好地配合北京数字档案馆项目建设工作，北京市档案馆在 2016年开展了档案数据集中清理工作。、北京市档案馆现有数据情况北京市档案馆馆藏数据主要包括：各类档案数字化副本、电子文件、档案机读目录数据、档案系统管理数据等。其中档案系统管理数据通常包括档案实体表、档案存址表、档案原缺表、利用者信息表、调归卷信息表等数据。这些数据可分为结构化数据和非结构化数据两类。结构化数据是指存储在数据库里，可以用二维表结构来逻辑表达实现的数据。非结构化数据无法用数字或统一的结构表示，如文本、图像、声音、网页等，称之为非结构化数据。结构化数据包括档案机读目录数据和档案系统管理数据。非结构化数据包括各类数字化副本、电子文件、数码照片等。两类数据存在问题和解决的方法不同。结构化数据整体存储在数据库中，数据清理依赖数据库执行指令完成。非结构化数据是以单个文件形式存储在磁盘驱动器中，可以人工进行清理，但当数据量非常大的情况下，则需依靠定制开发计算机程序完成。在向北京数字档案馆系统迁移数据的过程中，纸质档案数字化副本和档案机读目录是存在问题最多、清理工作量最大的两类数据资源。因此，数据清理的重点也集中在纸质档案数字化副本和档案机读目录数据上。二、北京市档案馆数据质量存在的典型问题档案机读目录数据存在以下四类问题：重复数据 \lz/:据重复主要有两种情况，一种是在同一个库表中存 \lz/ :据重复主要有两种情况，一种是在同一个库表中存在全部字段值完全相同的记录；另一种是在不同的库表中存在相同的记录。产生的主要原因均为数据被重复导入，数据库没有唯一性校验造成的。应保留一份数据，删除重复数据。缺失数据数据库表中很多记录缺失关键字段值，关键字段例如 “全宗号”“目录号”“案卷号”“档号”“题名”“开控状态”等字段。产生问题的主要原因是目录在手工录入过程中遗漏造成的，数据库在设计上完整性约束不足也是原因之一。这些关键字段值应进行补充以保证数据检索、利用的需求得以满足。错误数据数据库表中有的记录中“档号”字段值编制错误，例如照片档案档号结构应该是“全宗号-目录号-案卷号-张号”，但是实际录入的是“全宗号-目录号-案卷号”。有的记录赋值错误，例如有的“张页数”字段中含有“+”等非法字符，其值域范围本应仅限于正整数。有的记录编制位数不足，例如“起始页号”字段值按照目前标准应该是5位，但是早期的记录只有3 位或4位。这些错误的原因有的是由于手工录入错误造成的，有的是由于字段值编制标准发生变化造成的。错误的数据应通过数据清理进行修正。无效数据、PZ 、PZ :据库表中的历史测试数据，暂存数据等，应通过清理工作直接删除数字化副本数据存在四类问题 1.数据命名不规范数字化副本文件命名有如下几类：3位流水号.tif、4 位流水号.tif、5位流水号.tif、a_p流水号.tif、档号.tif。产生这种情况的原因是由于不同时期数字化加工采用的标准不同，还有一些不符合规范采用手工命名导致的特殊命名方式。不符合命名规范的数字化副本在数据管理和数据挂接中存在隐患，容易产生挂接错误等问题，应采用统一的命名标准，保证数据在案卷级和文件级挂接的可靠性。数据质量不可靠个别数字化副本存在无法打开的情况，属于数据扫描质量问题。错误的数据会导致无法挂接，系统无法正常读取数据。可以使用软件检测图像的可读性，保证数据质量。数据保存不唯一有些档案的数字化副本在系统中存在两份，彩色一份、黑白一份，黑白的是早期的数字化成果，彩色的是近期数字化成果。重复数据不利于数据管理，也浪费存储空间，选取图像质量好的副本进行存储即可。 4.存储方式不今y — 数据在磁盘上的存储方式不同，存在多种形式。有在线存储管理方式和离线存储脱机管理方式两类。在线存储管理方式使用不同的系统其数据具体存储方式也不相同。建议将