网站大量收购独家精品文档,联系QQ:2885784924

简析大数据及其处理分析流程课案.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
简析大数据及其处理分析流程课案

简析大数据及其处理分析流程 【摘 要】【关键词】 引言 1],相当于全世界每个人产生200GB 以上的数据,这些数据每天还在不断地产生。 而在中国,2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),是2012年所产生的数据总量的2倍,相当于2009年全球的数据总量[2]。2014年中国所产生的数据则相当于2012 年产生数据总量的10倍,即超过8ZB,而全球产生的数据总量将超40ZB。数据量的爆发式增长督促我们快速迈入大数据时代。 全球知名的咨询公司麦肯锡(McKinsey)2011年6月份发布了一份关于大数据的详尽报告“Bigdata: The next frontier for innovation,competition, and productivity”[3],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。进入2012年以来,大数据的关注度与日俱增。 处于发展中国家前列的中国,大数据的应用处于起步阶段。在工信部发布的物联网“十二五”规划[4]中,把信息处理技术作为4项关键技术创新工程之一提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项:信息感知技术、信息传输技术、信息安全技术,也与“大数据”密切相关。 由此可见,大数据的发展已经得到了世界范围内的广泛关注,发展趋势势不可挡。如何将巨大的原始数据进行有效地利用和分析,使之转变成可以被利用的知识和价值,解决日常生活和工作中的难题,成为国内外共同关注的重要课题,同时也是大数据最重要的研发意义所在。 1 大数据的概念 数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)级别的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB)级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2 ZB,如果将这些数据刻录到CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍[5]。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。 1.1 大数据的产生 在科学研究(天文学、生物学、高能物理等)[6]、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势.美国互联网数据中心(IDC)指出,互联网上的数据每年将增长50%以上,每2年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等也产生了海量的数据信息。 1.2 大数据概念的提出 1989年,Gartner Group的Howard Dresner首次提出“商业智能”(Bussiness intelligence)这一术语[7]。商业智能通常被理解为企业中现有的数据转化为知识、帮助企业做出明智的业务经营决策的工具,主要目标是将企业所掌握的的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术[8]。随着互联网络的发展,企业收集到的数据越来越多、数据结构越来越复杂,一般的数据挖掘技术已经不能满足大型企业的需要,这就使得企业在收集数据之余,也开始有意识的寻求新的方法来解决大量数据无法存储和处理分析的问题。由此,IT界诞生了一个新的名词———“大数据”。 根据维基百科的定义,“大数据”(Big Data)指所涉及的资料量规模巨大到无法透过目前主流软件工具, 在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。关于数据量达到多少可以叫大数据,目前尚无统一说法。通常认为,大数据一般应在10TB~1PB(P 为T 的1024倍)以上。 1.3 大数据的特征 在日新月异的IT 业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)[9]: (1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。 (2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。 (3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的

您可能关注的文档

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档