中国大数据技术大会:大数据基础技术的演进趋势.pptVIP

中国大数据技术大会:大数据基础技术的演进趋势.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
介绍 中国大数据技术大会前身是Hadoop中国云计算大会 描绘大数据领域内的技术热点,沉淀行业实战经验,见证整个大数据生态圈技术的发展与演变 提出学习的方法:找个平台看看我们能做什么,而不是闷头看书 技术热点:Spark、机器学习(尤其是大数据平台上的深度学习)、流数据处理和实时快速分析以及在Hadoop上的快速SQL接口 大多数在讲公司的平台架构和一些公司用的开源项目 2015年大数据基础技术的演进趋势 星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间,他一共总结了四大趋势: SQL on Hadoop技术对SQL支持的完整度和性能大幅提升,混合架构将逐渐消失 从In-Memory Computing 转向 On-SSD Computing,固态盘将替代内存作为缓存 数据产生的速度以及处理的速度要求都在快速提高,实时大数据技术得到关注 虚拟化技术的快速演化与Hadoop技术的日益平台化,云计算与大数据终得融合 期间,他分享了Spark的一个数据:全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本。 一、混合架构逐渐消失 混合架构 1、Hadoop离线处理非结构化的数据,对于结构化的数据用关系型数据库协助 2、数据量小的时候,大家发现Hadoop的性能不如传统的MPP数据库 一、混合架构逐渐消失 Impala-类似于MPP的引擎 Tez-吸收了Spark的一些设计思想。Transwarp Inceptor-基于Spark开发的SQL引擎,目前支持SQL2003,支持函数、游标等功能 SparkSQL和Drill Spark会成为一个主流 一、混合架构逐渐消失 Hadoop的SQL支持程度已经接近MPP数据库 现在Hadoop性能可以超过MPP若干倍 传统的BI厂商都已经转向Hadoop,Hadoop系统的BI工具也越来越丰富,还有一些新兴的创业公司在Hadoop上开发全新的BI工具,这些工具原生支持Hadoop,从这个角度来讲Hadoop的生态系统将很快超越传统MPP数据库。 现状:SQL支持仍然不够完整,而通过Spark可以快速并行化SQL,SQL支持的完整程度可以快速提高。同时,通过Spark引擎我们证明新引擎性能可以超过MPP数据库。我们发现一个事实现在Spark成为最受欢迎的计算引擎 二、内存可以被大容量的SSD取代做缓存 SSD 价格便宜,速度也很快,相对于 内存,性价比还是很高的 现有的TXT和行列混合等文件格式不足以 利用SSD的高性能如果使用SSD,还需要 为SSD设计专有的数据格式 两个趋势: 基于磁盘的Hadoop借鉴内存数据库的经验 设计新格式为SSD优化 现有的内存数据库为SSD优化 三、实时大数据的技术得到更多关注 三、实时大数据的技术得到更多关注 随着现在传感器网络、物联网的发展,数据产生的速度越来越快,当然在互联网里面早就有实时数据产生,使得实时大数据的技术慢慢开始得到更多的关注,我们预计明年有更多的应用。 Hadoop Storm 融合架构—Lambda Architecture (没有实战经验,所以好多理解不了各种问题、优缺点) 四、云计算和大数据终于可以融合起来 让Hadoop成为一种服务 (东西太多) 虚拟机帮助快速部署已经得到了时间的验证,这种方式把一台机器拆分到很多小机器,每台机器给用户使用。大数据觉得一台机器不够,我需要上千台、几百台机器组成一台机器处理。这个怎么融合起来,是不是我把虚拟机替代物理机做成了一个集群?这个尝试基本上都是失败的,因为IO的瓶颈是非常严重的,特别是在虚拟机跑大数据应用,CPU利用往往达到99%,很少有人在虚拟机上把CPU用到99%,这样对hypervisor是很大的考验,稳定性成为一个大问题。最近一两年虚拟化技术在快速发展,不亚于一场新的技术革命。首先轻量级的Linux container技术出现,container之间可以做资源隔离,这使得虚拟机变得非常轻量级。很快一家公司叫做Docker发现应用打包迁移安装还是不方便,所以做了一个工具,使得你做应用打包迁移非常容易。大家发现还不大够,因为我要创立单个container或者单个应用比较容易,但是多个container应用就很麻烦。谷歌开发一个开源项目叫做Kubernetes, 简化了创建container集群的任务,你可以非常方便的创建Hadoop集群,也可以创建传统的应用,提供多container集群的部署同时也提供一些基础服务,比如说一些调度服务,这开始具备分布式操作系统的雏形。另外一个方向像大数据领域去年推出Hadoop2.0资源管理的框架YARN,这个确实是革命性的,因为把资源管理放在最底层,在上面可以跑多种计算框架,我们觉得可以一统天下了

文档评论(0)

文先生 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8047000056000024

1亿VIP精品文档

相关文档