基于HBase+KylinOLAP分析架构设计与优化.pdfVIP

  • 0
  • 0
  • 约3.7千字
  • 约 2页
  • 2026-05-28 发布于北京
  • 举报

基于HBase+KylinOLAP分析架构设计与优化.pdf

《085_基于HBase+Kylin实现的OLAP分析架构(1)》

早期那套基于大数据生态的数据仓库+Hive/SparkSQL+MySQL的OLAP分析架构其实跑着

还算凑合,但是这里的就是在于轻度聚合以后的数据会放到MySQL里去,这个数据量

不能太大,毕竟我们是要对MySQL里的数据跑各种维度groupby以后的分析语句的,就算

是建好了索引,但是单表在百万级的数量已经是极限了

增量的明细数据有1亿,3个维度,维度1的取值有100种,维度2的取值有1000值,

维度3的取值有10000种,100*1000*10000=10亿

所以后来慢慢发现这个数据仓库里轻度聚合后的数据量越来越大,经常聚合后的数据量有

日增几十万,全表都千万级了,基于MySQL跑的OLAP分析语句越来越,都跑不动了,

这个时候这套架构就有点问题了

儒猿技术窝的《从0开始带你成为MySQL实战高手》,MySQL的B树索引原理,索引里的

数据很多,内存放不下太多的缓存页,索引深度很深,每次就算基于索引搜索,也要在磁盘

里大量的磁盘IO才可以

所以后来开始涌现HBase+Kylin的这套架构,Kylin本身就是依赖于HBase的,这套架构的

就是依然会对数据进行轻度聚合和汇总,但是预聚合以

文档评论(0)

1亿VIP精品文档

相关文档