- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈大数据背景下的电子文件的归档管理
2011413078 游玫玫
摘要:
主题词:
引言
随着物联网、移动互联网、社会化网络的快速发展,数据将成几何级数增长。据估计,2007年,人类大约存储了超过300艾字节的数据,而到2013年,世界上存储的数据预计能达到1.2泽字节。其中,非数字数据只占不到2%。 “大数据”时代已经悄然来临,并给各行各业带来了数据使用方式的根本性变革。这场变革也必然对档案界产生深刻影响。在大数据时代背景下,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战,人们越来越认识到对自身产生和拥有的大数据进行有效管理的重要性和迫切性,档案行业也不例外。其中,数据的爆炸式增长也必然带来电子文件的爆炸式增长,并将成为新生成文件的主体。电子文件是数字档案馆信息资源的重要来源,是数字档案馆管理的主要对象。但是,目前电子文件的归档工作还没有得到足够的重视, 很多重要的电子文件无法确定其保管的职责而游离在网络系统中,处于档案的管理之外,这样势必给我们进行的档案数字化建设造成不可弥补的损失。因此,在大数据时代背景下做好电子文件的捕获和归档工作刻不容缓。
何谓“大数据”
(一)大数据的概念
与云计算一样,“大数据”(Big Data)是最近几年被人们热议的话题。半个世纪以来,随着计算机技术全面融入社会生活,信息呈几何式增长,量的积累引起了质的改变。而最先经历信息爆炸的学科是,如天文学和基因学。创造出了“大数据”这个概念,进而发展到所有的领域中。最初,大数据这个概念是指需要处理的信息量过大,超过了一般电脑处理数据所能使用的内存量,因此工程师必须改进处理数据的工具。今天,大数据是人们大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人民获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构以及政府与公民关系的方法。
(二)大数据,大挑战
2013 年 1 月 29 日,住房和城乡建设部公布了首批 90个智慧城市试点,由家统一规划和施行的智慧城市建设正式起步。建设智慧城市要遵循“多用信息少用能源”“、多用信息少受灾害”以及“多用信息多利民众”几项原则。档案馆作为永久保存档案,并提供档案为社会服务的科学文化事业机构,储存有海量的信息资源,是信息资源的聚焦体,但是由于管理方式的落后、人才的欠缺、社会档案意识的低下等原因,这些信息资源宝藏并没有得到有效地开发和利用。智慧城市的建设是档案信息资源得以更好开发和利用的真正机会,是档案馆真正融入城市、提高形象的难得机遇。智慧城市依赖信息的使用,档案馆要想真正融入智慧城市的建设,就需要盘活档案馆保存的信息,使这些信息融入智慧城市的信息
流,为决策层、为公众所用,要盘活各个档案馆保存的海量的大数据时代,电子文件以指数级的速度增长,给电子文件的管理带来了前所未有的挑战,虽然我们知道这些浩瀚的电子文件中蕴藏着巨大的“金矿”,但我们逐渐发现想要从这
些电子文件中“淘金”比纸质文件还困难。面对着巨量的电子文件,我国长期以来提倡的“直接鉴定法”将在此遇到严峻的挑战,文件鉴定人员逐一阅读每一份电子文件的原文恐怕实在是无能为力。后来档案界比较认同电子文件的宏观鉴定
方法,即从总体上判断机构形成有价值文件的能力,而不是直接地对文件加以处理。按照这种思路,在确定一个机构是电子文件管理的对象后,就需要对这个机构产生的电子文件进行收集,对这些电子文件进行收集只完成了电子文件管理的第一步,而且在现今条件下,收集这些电子文件也并不难,困难的是如何快速的从这些电子文件中检索出所需要的文件?如何对这些电子文件进行分类?如何鉴定哪些是值得归档保存的?如何对这些电子文件进行编研从而抽取出其中的知识因子以供社会利用?要解决上述问题,档案工作者除了从管理方面寻求解决办法外还要寻求技术的帮助。大数据技术可以从技术上提供解决这些问题的办法。在普通的硬件上安装大数据转发器,就能收集数据形成庞大的系统数据,这个量级可以达到每天数 TB 并逐渐向 PB 数量级扩大,大数据软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接,这正是档案工作迫切需要的技术。除此之外大数据技术还能完成数据的分类、数据的挖掘,从而使档案界有应对越来越复杂的数据的分析能力。
1.2.2 处理非结构化电子文件需要大数据技术
大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据,现代互联网应用呈现出非结构化数据大幅增长的特点,至 2012 年末,非结构化数据占有例将达到整个数据量的 75%以上,同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。一直以来,人们对数据的管理采用的是关系型的数据库,比较有代表性的就是IOE(I 指 IBM 的服务器,O 指 Oracle 的数据库,E 指 EMC的
文档评论(0)