大数据时代背景下档案利用服务探析.docx

大数据时代背景下档案利用服务探析.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代背景下档案利用服务探析 摘要:本文首先描述了当前企业档案管理所面临的大数据 时代背景;其次对大数据时代对档案管理和服务带来的挑战 进行了分析;接着针对挑战提出了应对的解决方案;最后结 合具体应用实例对解决方案进行了验证。 关键词:大数据背景;档案利用服务;数据挖掘;文本挖 掘 大数据时代来临 数据的爆炸式增长正在出乎人们的想象。据预计,2020 年全球以电子形式存储的数据量将达35ZB,是2009年全球存 储量的40倍。而在2010年年底,根据IDC的统计,全球数据 量已经达到了 120万PBo①人们不禁感叹随着信息化的逐步 推进,我们迎来了大数据时代。 何谓“大数据”,目前没有统一的定义。通常认为,它是 海量的非结构化数据。IBM公司把大数据概括成了三个V②, 即Volume (数量大,通常以PB级别的数据量计)^Velocity (实 时性,需要更短的时间处理数据)和Variety(多样化,以非结 构化数据为主。这些特点也反映了大数据所潜藏的价值 (Value),或许可以认为,这四个V就是大数据的基本特征。 以某特大型企业档案馆为例,在“十一五”期间信息化 规划项目统一推广实施档案管理系统的基础上,档案馆档案 目录中心已将辖下各单位的档案目录信息进行集中管理、统 一展现,建成了覆盖集团各单位,包含400余万卷案卷、4000 余万件档案的全公司档案目录中心,馆藏存储量已由GB向TB 级和PB级转变。同时,随着公司电子文件应用的推广,数字 档案和全文数据库是数字档案馆藏资源的重要增长点,其数 据量将呈几何级数增长,存储的数据总量成了名副其实的海 量规模。另外,档案资源中存在大量的非结构化数据,例如扫 描图像、传真、照片、字处理文档、电子表格、演示文稿、 语音和视频片段等。 大数据背景下档案服务面临的挑战 与传统档案的馆(室)藏资源或者其它应用相比,大数据 时代下数字档案馆馆藏量具有媒体形式多、数据量大的特点, 但这些特点也给档案利用服务带来了新的挑战: 1挑战 如何在海量数据中查询到所需要的档案 信息 在大数据时代下,企业在各种业务活动中产生的数据和 信息呈爆炸性增长,最终作为档案保存下来的文件也相应的 增长。与过去信息贫乏的时代不同,在电子文件广泛利用和 互联网高度发达的今天,信息泛滥同样给利用带来了困难。 在过去,档案检索主要依靠手工著录、卡片检索,随着信息技 术的进步、数据库技术的发展,计算机辅助档案管理使档案 管理变得更为快捷和方便。但是在大数据时代,档案数量急 剧增长,甚至出现了档案数据“胀库”的问题。③随着档案 信息化建设的不断推进以及数据量的进一步增大,在进行档 案查询时,往往需要的信息会被埋没在大量的不需要的数据 中,并且检索性能急剧下降,甚至无法响应。因此,如何在大 量的档案中快速而准确地找到所需的信息,是档案服务要解 决的首要问题。 2.2挑战二一一如何在海量数据中抽取和挖掘有用的信 息和知识 知识管理是档案管理发展的趋势和方向,档案用户已不 满足于仅限于数据或文件的利用,更希望能够获得数据背后 的信息以及信息蕴藏的知识。因此,档案利用服务也应由提 供数据、信息转变为提供知识。然而,知识不是自然生成的, 知识也不是简单地存在于信息集合中,特别是蕴含在档案中 的知识,需要经过抽取和挖掘才能展示出来。如何在海量数 据中抽取和挖掘有用的信息和知识并提供给用户,是档案利 用服务工作今后发展的方向。依靠人工抽取、挖掘知识,在 传统纸质档案时代、档案数量不多的情况下还可实行,但在 大数据时代海量档案存在、非结构化数据盛行的今天则会变 得心有余而力不足。因此,依靠信息技术进行数据挖掘、知 识挖掘才是解决之道。 2.3挑战三一一如何在海量数据中进行档案资源二次开 发并提供利用 档案的保存和管理是为了利用,在大数据时代,用户对 档案资源的需求已不仅仅局限于原始的档案,需求变得更加 个性化、多样化。这就需要通过对档案信息资源进行二次开 发,制作多种形式的编研产品,并主动提供给用户。档案信息 二次开发是指利用各种计算机技术、多媒体技术、通信技术 等对档案及相关信息进行再次开发。④档案信息二次开发是 档案资源信息再利用的升级,它所蕴含的信息量和信息价值 将是无比巨大的,它是档案资源信息化开发的高级内容。在 大数据时代下,档案数量急剧增加、档案类型多种多样以及 非结构化数据的大量存在,给档案信息资源的二次开发带来 了困难。一是如何在海量数据中选择有价值的信息并找出它 们之间的关联,二是如何编研开发非结构化的档案信息,三 是如何减轻档案开发人员的工作量。 数据挖掘一一大数据时代下档案利用服务的必然选 择 1大数据时代的档案业务流程转变 大数据时代档案数据的量大、形式多等实际情况,带来 的无法找到、查询性能急剧下降、甚至无法

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档