8528 大数据Apache Kylin大数据分析平台的演进.docxVIP

下载本文档

4
0
约1.66万字
约 60页
2021-07-21 发布于湖南
举报
版权申诉

8528 大数据Apache Kylin大数据分析平台的演进.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【大数据】Apache Kylin大数据分析平台的演进 it168 2018-05-28 原文【IT168?专稿】本文依据2016第七届中国数据库大会现场演讲嘉宾李扬老师共享内容整理而成。录音及文字编辑@田晓旭@老鱼。　　讲师简介：　　李扬，上海Kyligence联合创始人兼CTO，Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术担当人，专注于大数据分析、并行计算、数据索引、关系数学、近似算法、压缩算法等前沿技术。 ▲上海Kyligence联合创始人兼CTO?李扬　　曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术担当人，担当Hadoop开源产品架构，“杰出技术贡献奖”的获奖者、摩根士丹利副总裁，担当全球监管报表基础架构。　　注释：　　我是来自Kyligence的李扬，是上海Kyligence的联合创始人兼CTO。今日我次要来和大家共享一下来Apache Kylin 1.5的新功能和架构转变。　　Apache Kylin是什么　　Kylin是最近两年进展起来的开源项目，在国外的知名度不是很高，但是在中国广为人知。Kylin的定位是Hadoop大数据平台上的多维分析工具，最早是由eBay在上海的争辩试验室孵化的，供应ANSI-SQL接口，支持格外大的数据集，将来期望能够在秒级别前往查询结果。Kylin于2014年10月开源，现在已经成为为数不多的全部由华人主导的Apache顶级项目。　　1.SQL Interface 　　大多数的Hadoop分析工具和SQL是敌对的，所以Apache Kylin拥有SQL接口这一点就显得尤为重要。Kylin的ANSI SQL可以替代HIVE的很大一部分工作，假如不使用HIVE本地方言的话，那么Kylin和HIVE几乎完全兼容，也是SQL on Hadoop的一员。　　Kylin和其它SQL ON Hadoop的次要区分是离线索引。用户在使用之前先选择一个HIVE Table的集合，然后在这个基础上做一个离线的CUBE构建，CUBE构建完了之后就可以做SQL查询了。SQL数据下的关系表模型和原来的HIVE Table的一模一样，所以原来的HIVE查询可以原封不动的迁移到Kylin上面直接运转。　　用离线计算来代替在线计算，在离线过程当中把简约的、计算量很大的工作做完，在线计算量就会变小，就可以更快的前往查询结果。通过这种方式，Kylin可以有更少的计算量，更高的吞吐量。　　2.Big Data 　　2015年eBay公布Kylin已经有接近千亿的数据规模，2016年确定已经稳稳的超过千亿了。但是这也可能不是Kylin的最大案例，由于依据我们在中国移动得到的数据，他们每天可能就有百亿的增量数据要放到Kylin的系统里面，可能十天就超过千亿了。国内很多一线互联网企业也都在使用Kylin技术来进行多维数据分析。　　3.Low Latency 　　Kylin的查询功能相当不错，这也是当时它的设计目标。我们的目标是在秒级别能够前往查询结果，在实际生产系统里面，Kylin 90%的查询都可以在稳定的三秒内前往，而且这并不是一条两条特殊的SQL可以做到这共功能，而是在数万条不一样的、在各种简约的查询下的SQL都可以做到这样。　　从图中可以看到，在某一天Kylin的查询延迟有一个山峰，所以不是说只需用了Kylin全部的查询就确定快，但是经过调优大多数的查询都会很快速。　　4.BI工具的集成　　Kylin供应了标准的ODBC和JDBC接口，能够和传统BI工具进行很好的集成。分析师们可以用他们最生疏的工具来享受Kylin带来的快速。　　5.Scalable Throughput 　　Kylin是用离线计算来代替在线计算，相比于其他的工具，在线计算量较小，能够在固定的硬件配置上面拥有更高的吞吐率。　　这是在两条比较简约的查询下查看Kylin的线性扩展力气的试验。我们在一个比较简约的机器上面添加Kylin的查询引擎的个数，从图中可以看出Kylin在从一个实例加到四个实例的过程中吞吐量是呈线性上涨的，Kylin每秒可以支持大约250个查询。当然，这个试验还没有探测到整个系统的瓶颈，依据理论，Kylin系统的瓶颈最终会落在他的存储引擎上面。所以，在存储有保障的前提下，我们可以通过扩展存储引擎来扩展Kylin的吞吐量。　　Apache Kylin 1.5新特性　　1.可扩展架构　　Kylin接受的是一个可扩展的架构。用户的数据首先是落在HIVE里面，然后依据META DATA定义的CUBE描述，进行离线CUBE构建，构建完成的CUBE结果存放在HBase里面。当查询从顶部过来