大数据分析原理和应用-全套PPT课件.pptx

大学课程全套PPT课件,内容详实,制作精良。

第一章 大数据概述 1. 1 大数据的产生背景与概念 1. 1. 1 大数据的产生背景大数据的产生可以分为三个阶段:? 萌芽阶段 (20世纪90年代至21世纪初) : 1997年,NASA阿姆斯科研中心的大卫?埃 尔斯沃斯和迈克尔?考克斯在研究数据的 可视化问题时首次使用“大数据”概念; 1998年,美国《自然》杂志上发表的一 篇名为《大数据科学的可视化》的文章, 使大数据正式作为一个专有名词出现在 公共刊物之中。 1. 1. 1 大数据的产生背景? 发展阶段 (阶段从21世纪初至2010年) : 数据分析的主要技术——Hadoop技术的 诞生,使2005年成为大数据发展的重要 里程碑。大数据技术先是在美国铺开, 2010年美国信息技术顾问委员会 (PITAC) 发布的一篇名为《规划数字化未来》的报 告,足以体现美国对发展大数据技术的重 视。在这个阶段,大数据技术作为一种新 兴技术初步出现在人们的视野中,但还并 未在全球普及。 1. 1. 1 大数据的产生背景? 兴盛阶段 (从2011年至今) :2011年, 拥有每秒扫描并分析4TB的数据量能力 的IBM公司研制出的沃森超级计算机横 空出世,直接打破了世界纪录,将大数 据分析提升到新高度;不久后,麦肯锡 发布了《海量数据,创新、竞争和提高 生成率的下一个新领域》,详细描述了 大数据的技术架构,并且交代了大数据 在各个领域中的应用情况;2012年在瑞 士达沃斯召开的世界经济论坛讨论了与 大数据相关的一系列问题,并发表了 《大数据,大影响》,至此,大数据的 全球普及时代来临。 PITAC发布《规划 数字化未来》报告2010 1. 1. 1 大数据的产生背景 大数据产生大事件年代表瑞士达沃斯召开 的世界经济论坛 上发表《大数据, 大影响》《 大 数 据 科 学 的可视化》文章 的发表Hadoop技术诞生“大数据”概 念的首次使用沃森超级计算 机横空出世20052012201119971998 大数据的概念从产生至今仍没有一个公认的解释。以下是两 种被大众普遍接受的对大数据的定义:1. 麦肯锡的《大数据:下一个创新、竞争和生产率的前沿 》:所谓大数据,主要是指无法在一定时间内用传统数 据库工具对其内容进行获取、存储、管理和分析的数据 集。2. 研究机构Gartner:大数据是指需要新处理模式才能具有 更强的决策力,洞察发现力和流程优化能力的海量,高 增长率和多样化的信息资产。 1. 1.2 大数据的概念 l 数据的单位有:bit,B,KB,MB,GB,TB等。其中,最小的存 储单位是bit。l 单位换算:1B=8bit 1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB 1. 1.3 数据的单位 1. 1.4 大数据的分类l 按字段类型分类:文本类、数值类、时间类l 按数据结构分类:结构化数据、半结构化数据、非结构化数据l 按事物描述分类:状态类数据、事件类数据、混合类数据l 按数据处理分类:原始数据、衍生数据l 按数据粒度分类:明细数据、汇总数据l 按更新方式分类:批量数据、实时数据 1.2 大数据的特点和技术概述 volume (海量)过去,MB的存储容量就已经能满足很多人数据存储的需求了 ,但随着信息技术的不断发展以及数据来源的不断增多,数 据呈现几何指数爆发式的增长,人们日益增加的存储需求促 使存储单位从过去的GB到TB,乃至现在的PB、EB级别,并不 可避免的会增加到ZB级别。截至2020年,全球数据量达到了 60ZB。variety (多样)广泛的数据来源决定了大数据的多样性 1.2. 1大数据的特点 velocity (高速)高速是区别大数据与传统数据最显著的特征。数据的增长速 度和处理速度是大数据高速性的重要体现。大数据采用实时 分析而非批量分析,而数据输入、处理与丢弃立刻见效,几 乎不存在延迟。例:截至2019年,Facebook的日均上传照片约有3亿张;曾经需要历经10年破译的人体基因30亿对碱基数据,现在仅 需15分钟即可完成; 1.2. 1大数据的特点 value (价值)价值是大数据的核心特征;大数据作为重要的基础型战略资源,其核心价值在于应用;数据虽然海量,但某一对象或者模块数据的价值密度很低, 有价值的数据所占比例很小;相比于传统数据,大数据最大的价值在于通过从大量不相关 的各种类型的数据中,挖掘出对未来趋势与模式预测分析有 价

文档评论(0)

1亿VIP精品文档

相关文档