中国大数据技术大会：大数据基础技术的演进趋势.pptVIP

下载本文档

41
0
约6.37千字
约 49页
2022-06-16 发布于江苏
举报
版权申诉

中国大数据技术大会：大数据基础技术的演进趋势.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

介绍中国大数据技术大会前身是Hadoop中国云计算大会描绘大数据领域内的技术热点，沉淀行业实战经验，见证整个大数据生态圈技术的发展与演变提出学习的方法：找个平台看看我们能做什么，而不是闷头看书技术热点：Spark、机器学习（尤其是大数据平台上的深度学习）、流数据处理和实时快速分析以及在Hadoop上的快速SQL接口大多数在讲公司的平台架构和一些公司用的开源项目 2015年大数据基础技术的演进趋势星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间，他一共总结了四大趋势： SQL on Hadoop技术对SQL支持的完整度和性能大幅提升，混合架构将逐渐消失从In-Memory Computing 转向 On-SSD Computing，固态盘将替代内存作为缓存数据产生的速度以及处理的速度要求都在快速提高，实时大数据技术得到关注虚拟化技术的快速演化与Hadoop技术的日益平台化，云计算与大数据终得融合期间，他分享了Spark的一个数据：全球已有近50家企业围绕Spark提供产品和服务，11家提供商业Spark版本。一、混合架构逐渐消失混合架构 1、Hadoop离线处理非结构化的数据，对于结构化的数据用关系型数据库协助 2、数据量小的时候，大家发现Hadoop的性能不如传统的MPP数据库一、混合架构逐渐消失 Impala-类似于MPP的引擎 Tez-吸收了Spark的一些设计思想。Transwarp Inceptor-基于Spark开发的SQL引擎，目前支持SQL2003，支持函数、游标等功能 SparkSQL和Drill Spark会成为一个主流一、混合架构逐渐消失 Hadoop的SQL支持程度已经接近MPP数据库现在Hadoop性能可以超过MPP若干倍传统的BI厂商都已经转向Hadoop，Hadoop系统的BI工具也越来越丰富，还有一些新兴的创业公司在Hadoop上开发全新的BI工具，这些工具原生支持Hadoop，从这个角度来讲Hadoop的生态系统将很快超越传统MPP数据库。现状：SQL支持仍然不够完整，而通过Spark可以快速并行化SQL，SQL支持的完整程度可以快速提高。同时，通过Spark引擎我们证明新引擎性能可以超过MPP数据库。我们发现一个事实现在Spark成为最受欢迎的计算引擎二、内存可以被大容量的SSD取代做缓存 SSD 价格便宜，速度也很快，相对于内存，性价比还是很高的现有的TXT和行列混合等文件格式不足以利用SSD的高性能如果使用SSD，还需要为SSD设计专有的数据格式两个趋势：基于磁盘的Hadoop借鉴内存数据库的经验设计新格式为SSD优化现有的内存数据库为SSD优化三、实时大数据的技术得到更多关注三、实时大数据的技术得到更多关注随着现在传感器网络、物联网的发展，数据产生的速度越来越快，当然在互联网里面早就有实时数据产生，使得实时大数据的技术慢慢开始得到更多的关注，我们预计明年有更多的应用。 Hadoop Storm 融合架构—Lambda Architecture （没有实战经验，所以好多理解不了各种问题、优缺点）四、云计算和大数据终于可以融合起来让Hadoop成为一种服务（东西太多）虚拟机帮助快速部署已经得到了时间的验证，这种方式把一台机器拆分到很多小机器，每台机器给用户使用。大数据觉得一台机器不够，我需要上千台、几百台机器组成一台机器处理。这个怎么融合起来，是不是我把虚拟机替代物理机做成了一个集群？这个尝试基本上都是失败的，因为IO的瓶颈是非常严重的，特别是在虚拟机跑大数据应用，CPU利用往往达到99%，很少有人在虚拟机上把CPU用到99%，这样对hypervisor是很大的考验，稳定性成为一个大问题。最近一两年虚拟化技术在快速发展，不亚于一场新的技术革命。首先轻量级的Linux container技术出现，container之间可以做资源隔离，这使得虚拟机变得非常轻量级。很快一家公司叫做Docker发现应用打包迁移安装还是不方便，所以做了一个工具，使得你做应用打包迁移非常容易。大家发现还不大够，因为我要创立单个container或者单个应用比较容易，但是多个container应用就很麻烦。谷歌开发一个开源项目叫做Kubernetes，简化了创建container集群的任务，你可以非常方便的创建Hadoop集群，也可以创建传统的应用，提供多container集群的部署同时也提供一些基础服务，比如说一些调度服务，这开始具备分布式操作系统的雏形。另外一个方向像大数据领域去年推出Hadoop2.0资源管理的框架YARN，这个确实是革命性的，因为把资源管理放在最底层，在上面可以跑多种计算框架，我们觉得可以一统天下了