- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
档案大数据的概念与特征
近年来,大数据的价值以及对文件工作的影响引起了文件界的关注。研究人员先后发表了他们的观点和观点。大数据已然成为档案学界最为热门的研究课题之一。但现有研究中,对档案大数据的定义、特征、核心内容等基本问题的关注偏少。因此,对既有研究成果进行梳理,并给出相对科学合理的阐述,不仅有利于这一研究的深化,也有利于其在档案工作实践中的应用。
一、 在合理时间内达到对决策的处理
定义是对于一个概念的内涵和外延或一种事物的本质特征所作的简要而准确的描述。定义是研究工作的基础与起点,是研究者使用判断或命题的语言逻辑形式,是确定一个研究对象或事物在相关事物综合分类系统中的位置和界限,使其从相关事物的综合分类系统中显现出来的认识过程。
首先,让我们分析一下研究者们是如何定义档案大数据的属概念——“大数据”的。关于大数据的定义,现有文献中有多种不同的表述,比较具有代表性的如张淑芳的繁式表述和库俊平的简式表述。张淑芳认为:“大数据又称‘巨量资料’、‘海量资料’, 指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助用户筛选决策的积极资讯。‘大数据’是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。”而库俊平认为:“所谓大数据,是指由于数据的体量过于巨大,难以被用户及时获取和加工处理的数据。”两者的共性在于均指出了大数据的数据量巨大,难以在短时间内获取与运用。其区别则在于,繁式定义还强调了大数据的积极性、资源性和服务性,而简式没有强调这几点。
接下来再来看一下研究者们给档案大数据所下的定义。在数十篇既有文献中,给“大数据”下定义的不少,但给“档案大数据”下定义的只有高茂科先生一人。高茂科先生的定义是:“档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。”对照大数据的繁式定义,可以明显看出,这是一个完全机械套用大数据定义所得来的定义。用“属加种差”的方法来衡量,其明显的问题是属概念不清楚,种差不明确。该定义将档案、资料、信息混为一谈,没有给出明确而清晰的属种界定。
由此来看,档案界有关档案大数据定义的研究还十分粗浅,更没有一个共同认可的定义。这里笔者尝试着给“档案大数据”下个定义,受限于个人学识与知识结构,定义或不准确、或存谬误 ,只当抛砖 引玉,以利于引出深入的研究。
首先,我们要明确档案大数据是指档案中的大数据,还是大数据中的档案数据。前者可以定义为一定空间与时间范围内所有(不同保管期限、不同类型、不同载体、不同结构)档案数据的集合;后者可以定义为大数据中的具有档案属性的数据。从本文讨论的问题看,笔者定义的是档案中的大数据,既一定空间与时间范围内所有档案数据的集合。
二、 大数据应用研究
有关大数据与档案大数据的特征,有近1/3的既有文献进行了讨论与阐述,是档案学者们在档案大数据研究中关注的重点问题之一。
讨论档案大数据的特征,就必须先讨一下论大数据的特征。关于大数据的特征,既有文献的研究者大都是从数据的体量、种类、价值和处理数据的速度四个方面进行描述的。多数研究者用数据体量巨大、数据类型繁多、数据价值密度低和数据处理速度快,来描述大数据的特征。比如:兰祝刚、惠英、李刚、张淑芳、梁启敏、刘晖、刘怡君等人。但在对四个特征的具体描述上,研究者们的表述又各有不同。
一是数据体量巨大。研究者们虽然都使用的是一定范围内的数据量来说明,但范围与数据量级并不相同。比如,张淑芳使用的是“个人计算机硬盘的容量为TB量级,而一些大企业的数据 量已经接 近EB量级”;兰祝刚、惠英、李刚 使用全球“ 进入ZB时代”来表述;而梁启敏、刘晖、刘怡君则笼统地用 “能达到PB甚至EB级别”来进行表述。
二是数据类型繁多。有些以数据是否属于结构化来描述,如兰祝刚、惠英、李刚、张淑芳认为:“包括结构化数 据、半结构 化数据和 非结构化 数据等。”有些则以例举各种具体数据类型来描述。如梁启敏、刘晖、刘怡君、陈明洁认为:“有图像、声音、视频、社交网络、博客甚 至应用的 使用习惯 等。”
三是价值密度低。兰祝刚、惠英、李刚 形容为“沙里淘金”,“以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒”;陈明洁强调“单位数据信息含量有限”;张淑芳强调“如何通过强大的机器算法更迅速地完成数据的价值‘提纯’成为目前大数据背景下亟待解决的难题”;而梁启敏、刘晖、刘怡君则强调的是“从数据应用大数据的分析方法中总结出来的信息具有高价值性。”
四是处理速度快。几乎所有研究者都认可如下两点:一是处理速度快“是区别于传统数据最显著的特征”;
原创力文档


文档评论(0)