- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据生态系统011.1了解大数据1.2Hadoop简介1.3实训1收集Hadoop相关案例
了解大数据(产生、概念、特征)及“物、云、大、智”之间的关系了解Hadoop的应用案例了解及认识Hadoop和它的核心组件了解MapReduce作业的运行方式1243本模块从了解大数据(bigdata)入手,简明扼要地叙述大数据的产生、大数据的概念、大数据的“4V”特征、大数据应用案例,展示物联网(产生数据)、云计算(承载数据)、大数据(挖掘数据)和人工智能(学习数据)相辅相成、彼此依附和相互助力的关系,再通过对Hadoop的层层“揭秘”来认识Hadoop和它的核心组件及其常用的其他组件。目标和要求大数据生态系统
1.1了解大数据被誉为“大数据之父”的维克托·迈尔-舍恩伯格曾提到“世界的本质就是大数据”,当今社会生活中到处都是数据。不仅如此,在人人互联的廉价存储时代,我们收集的数据的性质也在发生变化。对于许多企业而言,它们的关键数据曾经仅限于其业务数据库和数据文件。在这些类型的系统中,数据被组织成有序的行和列,其中信息的每个字节在其性质和业务价值方面都易于管理和理解。当今这些数据和数据库仍然非常重要,但是应用的数据类型和数据处理方式发生了翻天覆地的变化,大数据悄然而至,让我们一起揭开大数据的神秘面纱。
1.1了解大数据1.1.1大数据的产生大数据的产生可追溯至1887年。1887—1890年,美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动器来读取卡片上的洞数,该设备让美国用1年时间就完成了原本需耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。社交网络、电子商务等互联网应用成为新的数据来源,传感器、二维码、无线射频识别(radiofrequencyidentification,RFID)、位置信息等物联网应用成为新的数据采集方法,全时空数据的可采集性应用,智能算法的使用,非结构的数据形态飞速增加,数据获取成本、存储成本和处理成本的下降,所有因素都推动了数据量的爆炸式膨胀。数据大爆炸和数据结构的变化为数据处理带来新的挑战,人类正从信息技术(informationtechnology,IT)时代走向数据技术(datatechnology,DT)时代。
1.1了解大数据1.1.2大数据的概念大数据可一拆为二来看,就是“大”和“数据”。数据最小的基本单位是bit,可存储一个0或者1,8bit相当于1Byte。数据量等级单位有Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们依次按照进率1024(210)来计算。常规PC的存储和处理数据的体量一般到达GB级别,而互联网、企业IT、物联网、短信、电话、网络搜索、在线交易等,随时都在快速累积庞大的数据,数据量很容易达到TB、PB或EB等级,没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务。等级界值分分钟就临近了,“大数据”的概念延伸而出。何为大?
1.1了解大数据1.1.2大数据的概念在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的统称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。例如,应用下载记录、语音通话记录、淘宝“双11”新订单记录等都为数据,有些是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,这种称为结构化数据。与之相对的是有些数据则“杂乱无章”或部分有序,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等,这种称为非结构化或半结构化数据。对于大数据,研究机构Gartner给出了定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。何为数据?
1.1了解大数据1.1.3大数据的特征(1)数据体量巨大(volume)(4)价值密度低(value)(3)处理速度快(velocity)(2)数据类型繁多(variety)大数据的“3V”特征,描述了数据挑战“大”的背后因素。这三个特征标准是评估大数据问题并提供清晰口号的简便方法。通常的经验法则是:如果数据存储和分析工作具有这三个特征中的任何一个,则很可能会带来巨大的数据挑战,须利用大数据技术来解决。大数据最核心的价值就是对于海量数据进行存储和分析。相比现有的其他技术而言,大数据的“
您可能关注的文档
- Web前端设计基础教程:CSS基础PPT教学课件.pptx
- Web前端设计基础教程:HTML基础PPT教学课件.pptx
- Windows网络服务器配置与管理:DHCP服务器的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:DNS服务器的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:基本磁盘和动态磁盘的配置与管理PPT教学课件.pptx
- Windows网络服务器配置与管理:基于eNSP的综合组网PPT教学课件.pptx
- 电子商务运营与推广:网店活动PPT教学课件.pptx
- 工程制图:绪论PPT教学课件.ppt
- 构成与应用:立体构成概述PPT教学课件.pptx
- 构成与应用:认识色彩PPT教学课件.pptx
文档评论(0)