- 1、本文档共777页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
根据教材和网络资源整理制作,可作为授课教师的参考资料和从业人员的自学资料。
第1章 绪论
目 录Contents1.1 大数据的基本概念1.2大数据的价值和作用1.3大数据带来的思维方式变革1.4大数据处理技术基础2.5大数据面临的技术挑战
大数据的基本概念1.1什么是“大数据”大数据的特点大数据的构成
1.1.1 什么是“大数据” “大数据”这一名词最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰?马西(John?Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big?Data(大数据)”来描述这一挑战,在计算机领域引起了人们的重视和关注。
1.1.1 什么是“大数据”在“大数据”这一概念形成的过程中,有三个标志性的事件。2008年9 月,美国《自然》(Nature)杂志专刊——The next Google,第一次正式提出了“大数据”概念。2011年2月1日,《科学》(Science)杂志专刊——Dealing with data,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。2011年5月,麦肯锡全球研究院(McKinsey Global Institute)发布报告——Big Data: The Next Frontier for Innovation, Competition, and Productivity,第一次给大数据做出相对清晰的定义。
1.1.1 什么是“大数据” 维基百科(Wikipedia)对大数据的定义是:规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。 从以上对大数据的定义可以看出,大数据与传统所处理的数据相比,具有体量大、结构复杂的显著特点,并且难以用常规的技术进行处理。
1.1.2 大数据的特点通常用“4V特性”来描述大数据的主要特征,即大数据具有体量大(Volume)、种类多(Variety) 、速度快(Velocity)和价值高(Value)四个主要特征。
大数据的基本特征(1)体量大(Volume) 大数据的特征首先体现在数量巨大,存储单位达到TB、PB甚至EB级别。图灵奖得主Jim Grey对人类社会信息量的增长提出一个“新摩尔定律:”每18个月,全球信息量是计算机有史以来全部信息量的总和“。根据IDC(International Data Corporation,国际数据公司)的一份报告预测,从2013年至2020年,全球数据规模扩大了50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,2025年全球数据总量预计将达175ZB。
大数据的基本特征(2)种类多(Variety) 大数据与传统数据相比,数据的来源广、维度大、类型杂。(3)速度快(Velocity) 随着计算机技术、互联网和物联网的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。(4)价值高(Value) 大数据有巨大的潜在价值,具有价值高但价值密度低的特点,也就是说同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这给我们挖掘海量的大数据增加了难度和成本。
1.1.2 大数据的构成 大数据的构成可以分为结构化数据、非结构化数据和半结构化数据三类 (1)结构化数据:结构化数据具有固定的结构、类型和属性划分等,通常可以用二维表表示,如用关系型数据库存储的信息、Excel表所存放的信息等。学号姓名性别出生日期1100101小王男1998-03-051100102小李女1999-08-051100103小陈男2000-03-07结构化数据示例
1.1.2 大数据的构成 (2)半结构化数据:半结构化数据具有一定的结构性,但又灵活多变。例如XML、HTML格式的文件,其自描述、数据结构和内容混杂在一起。可扩展标记语言XML是一种W3C制定的标准通用标记语言,已成为国际上数据交换的一种公共语言。
1.1.2 大数据的构成用XML文件格式来描述表1.2中的三条记录。
1.1.2 大数据的构成 (3)非结构化数据:非结构化数据是指无法采用固定的结构来表示的数据,如文本、图像、视频和音频等数据。非结构化数据其格式非常多样,无法用统一的结构表示,而且在技术上非结构化信息比结构化信息更难标准化和理解。文本、图片和视频文件示意图
大数据的价值和作用1.2
1.2 大数据的价值和作用1.人类的活动越来越依赖于数据2.大数据的核心价值3.大数据的作用 大数据的核心价值在于提供了一种人类认识复杂系统的新思维和新手段,可以帮助人们发现规律、预测未来和决策指导。
文档评论(0)