- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代背景下档案利用服务探讨
大数据时代背景下档案利用服务探讨
摘要:本文首先描述了当前企业档案管理所面临的大数据时代背景;其次对大数据时代对档案管理和服务带来的挑战进行了分析;接着针对挑战提出了应对的解决方案;最后结合具体应用实例对解决方案进行了验证。
关键词:大数据背景;档案利用服务;数据挖掘;文本挖掘
1.大数据时代来临
数据的爆炸式增长正在出乎人们的想象。据预计,2020年全球以电子形式存储的数据量将达35ZB,是2009年全球存储量的40倍。而在2010年年底,根据IDC的统计,全球数据量已经达到了120万PB。①人们不禁感叹随着信息化的逐步推进,我们迎来了大数据时代。
何谓“大数据”,目前没有统一的定义。通常认为,它是海量的非结构化数据。IBM公司把大数据概括成了三个V②,即Volume(数量大,通常以PB级别的数据量计)、Velocity(实时性,需要更短的时间处理数据)和Variety(多样化,以非结构化数据为主。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。
以某特大型企业档案馆为例,在“十一五”期间信息化规划项目统一推广实施档案管理系统的基础上,档案馆档案目录中心已将辖下各单位的档案目录信息进行集中管理、统一展现,建成了覆盖集团各单位,包含400余万卷案卷、4000余万件档案的全公司档案目录中心,馆藏存储量已由GB向TB级和PB级转变。同时,随着公司电子文件应用的推广,数字档案和全文数据库是数字档案馆藏资源的重要增长点,其数据量将呈几何级数增长,存储的数据总量成了名副其实的海量规模。另外,档案资源中存在大量的非结构化数据,例如扫描图像、传真、照片、字处理文档、电子表格、演示文稿、语音和视频片段等。
2.大数据背景下档案服务面临的挑战
与传统档案的馆(室)藏资源或者其它应用相比,大数据时代下数字档案馆馆藏量具有媒体形式多、数据量大的特点,但这些特点也给档案利用服务带来了新的挑战:
2.1挑战一——如何在海量数据中查询到所需要的档案信息
在大数据时代下,企业在各种业务活动中产生的数据和信息呈爆炸性增长,最终作为档案保存下来的文件也相应的增长。与过去信息贫乏的时代不同,在电子文件广泛利用和互联网高度发达的今天,信息泛滥同样给利用带来了困难。在过去,档案检索主要依靠手工著录、卡片检索,随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。但是在大数据时代,档案数量急剧增长,甚至出现了档案数据“胀库”的问题。③随着档案信息化建设的不断推进以及数据量的进一步增大,在进行档案查询时,往往需要的信息会被埋没在大量的不需要的数据中,并且检索性能急剧下降,甚至无法响应。因此,如何在大量的档案中快速而准确地找到所需的信息,是档案服务要解决的首要问题。
2.2挑战二——如何在海量数据中抽取和挖掘有用的信息和知识
知识管理是档案管理发展的趋势和方向,档案用户已不满足于仅限于数据或文件的利用,更希望能够获得数据背后的信息以及信息蕴藏的知识。因此,档案利用服务也应由提供数据、信息转变为提供知识。然而,知识不是自然生成的,知识也不是简单地存在于信息集合中,特别是蕴含在档案中的知识,需要经过抽取和挖掘才能展示出来。如何在海量数据中抽取和挖掘有用的信息和知识并提供给用户,是档案利用服务工作今后发展的方向。依靠人工抽取、挖掘知识,在传统纸质档案时代、档案数量不多的情况下还可实行,但在大数据时代海量档案存在、非结构化数据盛行的今天则会变得心有余而力不足。因此,依靠信息技术进行数据挖掘、知识挖掘才是解决之道。
2.3挑战三——如何在海量数据中进行档案资源二次开发并提供利用
档案的保存和管理是为了利用,在大数据时代,用户对档案资源的需求已不仅仅局限于原始的档案,需求变得更加个性化、多样化。这就需要通过对档案信息资源进行二次开发,制作多种形式的编研产品,并主动提供给用户。档案信息二次开发是指利用各种计算机技术、多媒体技术、通信技术等对档案及相关信息进行再次开发。④档案信息二次开发是档案资源信息再利用的升级,它所蕴含的信息量和信息价值将是无比巨大的,它是档案资源信息化开发的高级内容。在大数据时代下,档案数量急剧增加、档案类型多种多样以及非结构化数据的大量存在,给档案信息资源的二次开发带来了困难。一是如何在海量数据中选择有价值的信息并找出它们之间的关联,二是如何编研开发非结构化的档案信息,三是如何减轻档案开发人员的工作量。
3.数据挖掘——大数据时代下档案利用服务的必然选择
3.1大数据时代的档案业务流程转变
大数据时代档案数据的量大、形式多等实际情况,带来的无法找到、查询性能急剧下降、甚至无法响应等问题,利用传统的简单查询服务模式已经
文档评论(0)