大数据 Spark编程基础(Scala版)-第1章-大数据技术概述.pptVIP

大数据 Spark编程基础(Scala版)-第1章-大数据技术概述.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.6.3 Flink Flink生态系统 1.6.3 Flink Flink与Spark的比较 1.6.3 Flink Spark和Flink全部都运行在Hadoop YARN上,性能为Flink > Spark > Hadoop(MR),迭代次数越多越明显,性能上,Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有对迭代自动优化的功能。 性能对比 首先它们都可以基于内存计算框架进行实时计算,所以都拥有非常好的计算性能。经过测试,Flink计算性能上略好。 1.6.3 Flink 流式计算比较 它们都支持流式计算,Flink是一行一行处理,而Spark是基于数据片集合(RDD)进行小批量处理,所以Spark在流式处理方面,不可避免增加一些延时。Flink的流式计算跟Storm性能差不多,支持毫秒级计算,而Spark则只能支持秒级计算。 SQL支持 都支持SQL,Spark对SQL的支持比Flink支持的范围要大一些,另外Spark支持对SQL的优化,而Flink支持主要是对API级的优化。 既生瑜,何生亮! 1.6.4 Beam 谷歌,Beam,一统天下? 1.6.4 Beam 第1章 大数据技术概述 《Spark编程基础》 提纲 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据关键技术 1.5 大数据计算模式 1.6 代表性大数据技术 1.1大数据时代 1.1.1第三次信息化浪潮 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业 表1 三次信息化浪潮 1.1.2信息科技为大数据时代提供技术支撑 图1-1 存储价格随时间变化情况 1. 存储设备容量不断增加 1.1.2信息科技为大数据时代提供技术支撑 来自斯威本科技大学(Swinburne University of Technology)的研究团队,在2013年6月29日刊出的《自然通讯(Nature Communications)》杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。 1.1.2信息科技为大数据时代提供技术支撑 图 CPU晶体管数目随时间变化情况 2. CPU处理能力大幅提升 1.1.2信息科技为大数据时代提供技术支撑 图 网络带宽随时间变化情况 3. 网络带宽不断增加 1.1.3数据产生方式的变革促成大数据时代的来临 图 数据产生方式的变革 1.2大数据概念 1.2.1 数据量大 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍 1.2.2 数据类型繁多 大数据是由结构化和非结构化数据组成的 10%的结构化数据,存储在数据库中 90%的非结构化数据,它们与人类信息密切相关 科学研究 –基因组 –LHC 加速器 –地球与空间探测 企业应用 –Email、文档、文件 –应用日志 –交易记录 Web 1.0数据 –文本 –图像 –视频 Web 2.0数据 –查询日志/点击流 –Twitter/ Blog / SNS –Wiki 1.2.3 处理速度快 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同 1.2.4 价值密度低 价值密度低,商业价值高 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值 继续装ing 1.3大数据的影响 图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式 实验 理论 计算 数据 1.3大数据的影响 在思维方式方面,大数据完全颠覆了传统的思维方式: 全样而非抽样 效率而非精确 相关而非因果 1.4大数据关键技术 表1-5 大数据技术的不同层面及其功能 技术层面 功能 数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作

您可能关注的文档

文档评论(0)

笑笑 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档