8528 大数据Apache Kylin大数据分析平台的演进.docxVIP

8528 大数据Apache Kylin大数据分析平台的演进.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【大数据】Apache Kylin大数据分析平台的演进 it168 2018-05-28 原文 【IT168?专稿】本文依据2016第七届中国数据库大会现场演讲嘉宾李扬老师共享内容整理而成。录音及文字编辑@田晓旭@老鱼。   讲师简介:   李扬,上海Kyligence联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术担当人,专注于大数据分析、并行计算、数据索引、关系数学、近似算法、压缩算法等前沿技术。 ▲上海Kyligence联合创始人兼CTO?李扬   曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术担当人,担当Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,担当全球监管报表基础架构。   注释:   我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO。今日我次要来和大家共享一下来Apache Kylin 1.5的新功能和架构转变。   Apache Kylin是什么   Kylin是最近两年进展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知。Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的争辩试验室孵化的,供应ANSI-SQL接口,支持格外大的数据集,将来期望能够在秒级别前往查询结果。Kylin于2014年10月开源,现在已经成为为数不多的全部由华人主导的Apache顶级项目。   1.SQL Interface   大多数的Hadoop分析工具和SQL是敌对的,所以Apache Kylin拥有SQL接口这一点就显得尤为重要。Kylin的ANSI SQL可以替代HIVE的很大一部分工作,假如不使用HIVE本地方言的话,那么Kylin和HIVE几乎完全兼容,也是SQL on Hadoop的一员。   Kylin和其它SQL ON Hadoop的次要区分是离线索引。用户在使用之前先选择一个HIVE Table的集合,然后在这个基础上做一个离线的CUBE构建,CUBE构建完了之后就可以做SQL查询了。SQL数据下的关系表模型和原来的HIVE Table的一模一样,所以原来的HIVE查询可以原封不动的迁移到Kylin上面直接运转。   用离线计算来代替在线计算,在离线过程当中把简约的、计算量很大的工作做完,在线计算量就会变小,就可以更快的前往查询结果。通过这种方式,Kylin可以有更少的计算量,更高的吞吐量。   2.Big Data   2015年eBay公布Kylin已经有接近千亿的数据规模,2016年确定已经稳稳的超过千亿了。但是这也可能不是Kylin的最大案例,由于依据我们在中国移动得到的数据,他们每天可能就有百亿的增量数据要放到Kylin的系统里面,可能十天就超过千亿了。国内很多一线互联网企业也都在使用Kylin技术来进行多维数据分析。   3.Low Latency   Kylin的查询功能相当不错,这也是当时它的设计目标。我们的目标是在秒级别能够前往查询结果,在实际生产系统里面,Kylin 90%的查询都可以在稳定的三秒内前往,而且这并不是一条两条特殊的SQL可以做到这共功能,而是在数万条不一样的、在各种简约的查询下的SQL都可以做到这样。   从图中可以看到,在某一天Kylin的查询延迟有一个山峰,所以不是说只需用了Kylin全部的查询就确定快,但是经过调优大多数的查询都会很快速。   4.BI工具的集成   Kylin供应了标准的ODBC和JDBC接口,能够和传统BI工具进行很好的集成。分析师们可以用他们最生疏的工具来享受Kylin带来的快速。   5.Scalable Throughput   Kylin是用离线计算来代替在线计算,相比于其他的工具,在线计算量较小,能够在固定的硬件配置上面拥有更高的吞吐率。   这是在两条比较简约的查询下查看Kylin的线性扩展力气的试验。我们在一个比较简约的机器上面添加Kylin的查询引擎的个数,从图中可以看出Kylin在从一个实例加到四个实例的过程中吞吐量是呈线性上涨的,Kylin每秒可以支持大约250个查询。当然,这个试验还没有探测到整个系统的瓶颈,依据理论,Kylin系统的瓶颈最终会落在他的存储引擎上面。所以,在存储有保障的前提下,我们可以通过扩展存储引擎来扩展Kylin的吞吐量。   Apache Kylin 1.5新特性   1.可扩展架构   Kylin接受的是一个可扩展的架构。用户的数据首先是落在HIVE里面,然后依据META DATA定义的CUBE描述,进行离线CUBE构建,构建完成的CUBE结果存放在HBase里面。当查询从顶部过来

您可能关注的文档

文档评论(0)

小文文小库库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档