浅析大数据特征.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

浅析大数据特征

?

?

陈闽韬

摘要:信息化和网络化的高速发展使得大数据成为当前学术界和工业界的研究热点,是IT业正在发生的深刻技术变革。大数据在人们的生活中无处不在,无所不及,然而人们对大数据的认识却存在简浅的表面,到底什么是大数据,似乎缺乏一语道破的力度,对大数据学术界的研究特征呈现怎样的状态也不是很清楚。该文从大数据基本概念出发,对目前主流的概念进行简要总结后得出有关大数据5V特征,即数据量大、数据多样性、高速处理、数据真实性和数据价值性特征,并在此基础对目前大数据运用较为突出的场合进行举例说明,为人们更好的认识大数据提供借鉴。

关键词:大数据;概念;特征分析;应用

:TP311:A:1009-3044(2017)36-0237-03

随着社会科学技术发展进步,人们在生活中接触的数据种类也逐步增多。特别在互联网飞跃发展的如今,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,并对人们或产生越来越重要的影响。

信息时代庞大的数据信息内容正改变着人们发现、解决问题的基本方式。然而,目前人们对大数据的认识较为模糊,对大数据基本概念特征以及其要解决的核心问题认识相对欠缺。本体通过对大数据的基本概念进行概述归纳总结出其基本特征,并从该特征出发了解其目前应用状况,并对其未来发展方向进行展望。

1大数据基本概念

有关大数据的概念版本较多,尚无确切、统一的定义。目前,国内外学者主要从三个角度来进行界定。

从数据集角度来说。JohnRauser认为:“大数据指任何超过了一台计算机处理能力的数据。”Mckinsey为大数据下的定义是,“大数据指的是所涉及的数据集规模已经超过传统数据库软件获取、存储、管理和分析的能力。”朱建平认为“大数据指那些超过传统数据系统处理能力,超越经典统计思想研究范围,不借助网络无法用主流软件工具及技术进行分析的复杂数据集合。”从技术角度定义来说,Microsoft认为:“大数据越来越被用于描述应用重要计算机能力过程,从最新的机器学习、人工智能到描述非常大的和通常极其复杂的一系列信息的术语。”朱杨勇认为“大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。”从其组成要素定义来说。谷歌趋势认为大数据是许多技术的结合及有意义的数据集的使用。NEPapp公司,认为“大数据应包括三大要素,ABC即分析、带宽和内容。”我国大数据科学家涂子沛认为“传统的小数据与现代的大记录构成了现在的大数据,从结构化方面来说其包括结构化数据和非结构化数据,大数据包含大价值大容量的信息内容。”

无论从哪个角度对大数据进行定义都不难发现大数据的概念与“海量数据”有个完全不同的定义。大数据并不仅仅是其数据量之大,还包括其获取方法之多、數据的表现形式之复杂、捕捉数据时间之快速以及通过专业化的助理方式而获得有用的信息价值能力。

2大数据基本特征

关于大数据特征的研究。尽管对大数据的概念各学者目前还没有统一意见,但对大数据的特征看法相对较稳定。大数据基本特征主要包括数据量大(Volume)、数据多样性(Variety)、高速处理(Velocity)、数据真实性(Veracity)和数据价值性(value),即5V特点。

2.1数据量大(Volume)

不同于传统的数据存储管理,其容量较小管理方便,如今随着互联网等信息技术的快速发展,数据存储量常以大于GB数千倍数万倍的TB,PB来衡量。早期的数据维度低、数据类型简单,这些数据是对原始事物采用抽象的方式而获取到的。早期数据的处理和储存多为数值,起容量相对有限。然而随着数据维度不断增加,应用越来越广泛,对事物描述所需的数据量也越来越大。尤其是近年来图像、视频等二维数据的不断涌现,数据对事物的描述能力不断增强,其所描述的事物越来越接近真实的世界。数据的描述能力不断增强,数据量将以几何速率快速增长。传统数据处理方法多采用抽样的方法进行数据处理,通过少量样本数据的处理来近似的描述整体数据的全面,通常样本数量可根据数据获取、处理能力来进行设定。这就造成人们认识事物的全面性主要通过样本信息来进行认知。由于得到的样本信息数据规模较小,因此,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。直接处理所有数据可以获得更好的精确性,能够让人们从多维度来认识事物属性,从而避免样本不准确性带来的片面属性,不会因为样本数据缺失而丢掉大量重要细节内容。因此,大数据时代所需处理的数据会显著增多。

2.2数据多样性(Variety)

相比于传统的机构化数据,大数据的格式还包括半结构化的邮件、

文档评论(0)

135****0879 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档