- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.6.3 Flink Flink生态系统 1.6.3 Flink Flink与Spark的比较 1.6.3 Flink Spark和Flink全部都运行在Hadoop YARN上,性能为Flink > Spark > Hadoop(MR),迭代次数越多越明显,性能上,Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代,具有对迭代自动优化的功能。 性能对比 首先它们都可以基于内存计算框架进行实时计算,所以都拥有非常好的计算性能。经过测试,Flink计算性能上略好。 1.6.3 Flink 流式计算比较 它们都支持流式计算,Flink是一行一行处理,而Spark是基于数据片集合(RDD)进行小批量处理,所以Spark在流式处理方面,不可避免增加一些延时。Flink的流式计算跟Storm性能差不多,支持毫秒级计算,而Spark则只能支持秒级计算。 SQL支持 都支持SQL,Spark对SQL的支持比Flink支持的范围要大一些,另外Spark支持对SQL的优化,而Flink支持主要是对API级的优化。 既生瑜,何生亮! 1.6.4 Beam 谷歌,Beam,一统天下? 1.6.4 Beam 第1章 大数据技术概述 《Spark编程基础》 提纲 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据关键技术 1.5 大数据计算模式 1.6 代表性大数据技术 1.1大数据时代 1.1.1第三次信息化浪潮 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业 表1 三次信息化浪潮 1.1.2信息科技为大数据时代提供技术支撑 图1-1 存储价格随时间变化情况 1. 存储设备容量不断增加 1.1.2信息科技为大数据时代提供技术支撑 来自斯威本科技大学(Swinburne University of Technology)的研究团队,在2013年6月29日刊出的《自然通讯(Nature Communications)》杂志的文章中,描述了一种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合物碟片上。 1.1.2信息科技为大数据时代提供技术支撑 图 CPU晶体管数目随时间变化情况 2. CPU处理能力大幅提升 1.1.2信息科技为大数据时代提供技术支撑 图 网络带宽随时间变化情况 3. 网络带宽不断增加 1.1.3数据产生方式的变革促成大数据时代的来临 图 数据产生方式的变革 1.2大数据概念 1.2.1 数据量大 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍 1.2.2 数据类型繁多 大数据是由结构化和非结构化数据组成的 10%的结构化数据,存储在数据库中 90%的非结构化数据,它们与人类信息密切相关 科学研究 –基因组 –LHC 加速器 –地球与空间探测 企业应用 –Email、文档、文件 –应用日志 –交易记录 Web 1.0数据 –文本 –图像 –视频 Web 2.0数据 –查询日志/点击流 –Twitter/ Blog / SNS –Wiki 1.2.3 处理速度快 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同 1.2.4 价值密度低 价值密度低,商业价值高 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值 继续装ing 1.3大数据的影响 图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式 实验 理论 计算 数据 1.3大数据的影响 在思维方式方面,大数据完全颠覆了传统的思维方式: 全样而非抽样 效率而非精确 相关而非因果 1.4大数据关键技术 表1-5 大数据技术的不同层面及其功能 技术层面 功能 数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作
您可能关注的文档
- 大数据 Spark编程基础(Scala版).ppt
- 大数据 Spark编程基础(Scala版)-第2章-Scala语言基础.ppt
- 大数据 Spark编程基础(Scala版)-第3章-Spark的设计与运行原理.ppt
- 大数据 Spark编程基础(Scala版)-第4章-Spark环境搭建和使用方法.ppt
- 大数据 Spark编程基础(Scala版)-第5章-RDD编程.ppt
- 大数据 Spark编程基础(Scala版)-第6章-Spark SQL.ppt
- 大数据 Spark编程基础(Scala版)-第7章-Spark Streaming.ppt
- 大数据 Spark编程基础(Scala版)-第8章-Spark MLlib.ppt
- Spring Boot企业级开发教程 第1章 SpringBoot入门.ppt
- Spring Boot企业级开发教程 第2章 SpringBoot核心配置与注解.ppt
- 2024-2029年中国殡葬行业市场运行分析及发展前景研究报告.docx
- 2024-2029年中国冰箱行业十四五发展分析及投资前景与战略规划研究报告.docx
- 2024-2029年中国冷藏柜行业市场发展分析及竞争策略与投资前景研究报告.docx
- 2024-2029年中国功能性饲料行业市场全景调研及投资价值评估咨询报告.docx
- 2024-2029年中国显示器件行业市场发展分析及竞争策略与投资前景研究报告.docx
- 2024-2029年中国智能纺织品行业市场发展现状及竞争格局与投资前景研究报告.docx
- 2024-2029年中国更衣柜行业市场发展现状及竞争策略与投资前景研究报告.docx
- 2024-2029年中国木材家具行业市场发展现状及竞争策略与投资前景研究报告.docx
- 2024-2029年中国梨行业供需趋势及投资风险研究报告.docx
- 2024-2029年中国棉纺行业供需趋势及投资风险研究报告.docx
1亿VIP精品文档
相关文档
最近下载
- HCIA-openEuler欧拉初级H12-611认证培训考试题库(含答案).pdf VIP
- 口头书面警告书.doc VIP
- 中国国家安全法PPT模板.pptx VIP
- 【精品剧本】剧本:刘关张桃园三结义(语文课三国剧本).pdf
- 上市公司审计风险的成因及控制研究—以辉山乳业审计失败为例.doc
- 江苏专用_新教材高中物理第四章光章末检测含解析新人教版选择性必修第一册.doc
- 2018年秋部编人教版八年级道德与法治上在社会公开课优质课件教学.ppt
- 闻官军收河南河北课件(共18张PPT).ppt VIP
- 2023年-openEuler结课测试试题资料.pdf VIP
- 冀教版英语四年级上册Lesson16 Cars and Buses优质公开课课件.pptx
文档评论(0)