北京数字档案馆项目数据清理情况探析.docVIP

  • 12
  • 0
  • 约3.73千字
  • 约 8页
  • 2017-06-13 发布于福建
  • 举报

北京数字档案馆项目数据清理情况探析.doc

北京数字档案馆项目数据清理情况探析

北京数字档案馆项目数据清理情况探析   摘要:目前由于数字档案馆的投入运行,各类档案数据的存储数量急速增加。与此同时,档案数据质量随着脏数据的出现受到很大影响,针对数据质量的清理工作势在必行。本文根据北京市档案馆的工作经验整理出档案数据质量存在的典型问题,提出了数据清理的基本方法和步骤,为今后档案工作数据清理提供相关经验和建议 关键词:数字档案馆数据质量脏数据数据清理 北京市档案馆档案管理系统经过十余年的应用,目前积累的存储数据非常庞大,其中档案机读目录1400余万条,档案数字化副本7000余万页,存储量达到80TB。由于数据库设计约束不足、数据录入错误等多种原因导致系统中存在脏数据(dirty data,是指数据集中存在较多相似重复的、不一致的、格式不匹配的、不符合逻辑的、带有空缺值的以及没有实际作用的数据)。[1]这些数据直接拉低了档案数据质量,影响档案检索查询效果。随着北京市数字档案馆项目的深入推进,为更好地配合北京数字档案馆项目建设工作,北京市档案馆在2016年开展了档案数据集中清理工作 一、北京市档案馆现有数据情况 北京市档案馆馆藏数据主要包括:各类档案数字化副本(纸质文书档案、纸质照片档案、音视频档案等数字化副本)、电子文件(含数码照片)、档案机读目录数据、档案系统管理数据等。其中档案系统管理数据通常包括档案实体表、档案存址表、档案原缺表、利用者信息

文档评论(0)

1亿VIP精品文档

相关文档