- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【大数据】Apache Kylin大数据分析平台的演进
it168
2018-05-28 原文
【IT168?专稿】本文依据2016第七届中国数据库大会现场演讲嘉宾李扬老师共享内容整理而成。录音及文字编辑@田晓旭@老鱼。
讲师简介:
李扬,上海Kyligence联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术担当人,专注于大数据分析、并行计算、数据索引、关系数学、近似算法、压缩算法等前沿技术。
▲上海Kyligence联合创始人兼CTO?李扬
曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术担当人,担当Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,担当全球监管报表基础架构。
注释:
我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO。今日我次要来和大家共享一下来Apache Kylin 1.5的新功能和架构转变。
Apache Kylin是什么
Kylin是最近两年进展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知。Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的争辩试验室孵化的,供应ANSI-SQL接口,支持格外大的数据集,将来期望能够在秒级别前往查询结果。Kylin于2014年10月开源,现在已经成为为数不多的全部由华人主导的Apache顶级项目。
1.SQL Interface
大多数的Hadoop分析工具和SQL是敌对的,所以Apache Kylin拥有SQL接口这一点就显得尤为重要。Kylin的ANSI SQL可以替代HIVE的很大一部分工作,假如不使用HIVE本地方言的话,那么Kylin和HIVE几乎完全兼容,也是SQL on Hadoop的一员。
Kylin和其它SQL ON Hadoop的次要区分是离线索引。用户在使用之前先选择一个HIVE Table的集合,然后在这个基础上做一个离线的CUBE构建,CUBE构建完了之后就可以做SQL查询了。SQL数据下的关系表模型和原来的HIVE Table的一模一样,所以原来的HIVE查询可以原封不动的迁移到Kylin上面直接运转。
用离线计算来代替在线计算,在离线过程当中把简约的、计算量很大的工作做完,在线计算量就会变小,就可以更快的前往查询结果。通过这种方式,Kylin可以有更少的计算量,更高的吞吐量。
2.Big Data
2015年eBay公布Kylin已经有接近千亿的数据规模,2016年确定已经稳稳的超过千亿了。但是这也可能不是Kylin的最大案例,由于依据我们在中国移动得到的数据,他们每天可能就有百亿的增量数据要放到Kylin的系统里面,可能十天就超过千亿了。国内很多一线互联网企业也都在使用Kylin技术来进行多维数据分析。
3.Low Latency
Kylin的查询功能相当不错,这也是当时它的设计目标。我们的目标是在秒级别能够前往查询结果,在实际生产系统里面,Kylin 90%的查询都可以在稳定的三秒内前往,而且这并不是一条两条特殊的SQL可以做到这共功能,而是在数万条不一样的、在各种简约的查询下的SQL都可以做到这样。
从图中可以看到,在某一天Kylin的查询延迟有一个山峰,所以不是说只需用了Kylin全部的查询就确定快,但是经过调优大多数的查询都会很快速。
4.BI工具的集成
Kylin供应了标准的ODBC和JDBC接口,能够和传统BI工具进行很好的集成。分析师们可以用他们最生疏的工具来享受Kylin带来的快速。
5.Scalable Throughput
Kylin是用离线计算来代替在线计算,相比于其他的工具,在线计算量较小,能够在固定的硬件配置上面拥有更高的吞吐率。
这是在两条比较简约的查询下查看Kylin的线性扩展力气的试验。我们在一个比较简约的机器上面添加Kylin的查询引擎的个数,从图中可以看出Kylin在从一个实例加到四个实例的过程中吞吐量是呈线性上涨的,Kylin每秒可以支持大约250个查询。当然,这个试验还没有探测到整个系统的瓶颈,依据理论,Kylin系统的瓶颈最终会落在他的存储引擎上面。所以,在存储有保障的前提下,我们可以通过扩展存储引擎来扩展Kylin的吞吐量。
Apache Kylin 1.5新特性
1.可扩展架构
Kylin接受的是一个可扩展的架构。用户的数据首先是落在HIVE里面,然后依据META DATA定义的CUBE描述,进行离线CUBE构建,构建完成的CUBE结果存放在HBase里面。当查询从顶部过来
您可能关注的文档
- 8027 BOM学BOM,此文是绝佳资料——这是我看过的关于BOM最全的资料!.docx
- 8027 CPS从CPS信息物理“系统”到CPC信息物理“计算”,解读物联网背后的背后的技术.docx
- 8027 财富空间当你老了,一生最后悔什么?.docx
- 8028 财富空间王阳明:5种生活智慧,解决人生难题.docx
- 8028 工业.0一个始于90年代的工业.0成功实践.docx
- 8028 智能驾驶六大核心!突破自动驾驶和智慧交通的必由之路.docx
- 8029 MES精细化工企业制造执行系统MES方案介绍.docx
- 8029 混合智能人机混合智能的哲学思考.docx
- 8029 区块链正方:制造业+区块链黄金时间即将到来,反方:末日博士怒指区块链七宗罪.docx
- 8525 财富空间傅盛、何小鹏、李想聊学习与焦虑:跟高段位选手聊0分钟,比你自己学几天还要多.docx
- 8528 深度学习增加检测类别?这是一份目标检测的一般指南.docx
- 8528 云计算PAAS原来你是这样的企业级PaaS.docx
- 8528 质量.0上汽如何用工业大数据创质量销量双赢.docx
- 8529 财富空间复杂商业世界里的系统打法.docx
- 8529 大数据商业数据分析的四个层次示例;数据湖、数据仓库、、、傻傻分不清楚.docx
- 8529 工业智能电网故障诊断的智能技术.docx
- 8529 智能制造智能工厂数字化集成.docx
- 8625 工业互联网工业互联网:突破智慧和机器的界限.docx
- 8625 智能制造国家智能制造标准体系建设指南(8年版).docx
- 8625 自动化国内机器人减速器的市场现状及差距分析.docx
原创力文档


文档评论(0)