基于HBase+KylinOLAP分析架构优化探索.pdfVIP

  • 0
  • 0
  • 约1.47千字
  • 约 2页
  • 2026-04-29 发布于北京
  • 举报

《087_基于HBase+Kylin实现的OLAP分析架构(3)》

早期那套基于大数据生态的数据仓库+Hive/SparkSQL+MySQL的OLAP分析架构其实跑着

还算凑合,但是这里的就是在于轻度聚合以后的数据会放到MySQL里去,这个数据量

不能太大,毕竟我们是要对MySQL里的数据跑各种维度groupby以后的分析语句的,就算

是建好了索引,但是单表在百万级的数量已经是极限了

增量的明细数据有1亿,3个维度,维度1的取值有100种,维度2的取值有1000值,

维度3的取值有10000种,100*1000*10000=10亿

所以后来慢慢发现这个数据仓库里轻度聚合后的数据量越来越大,经常聚合后的数据量有

日增几十万,全表都千万级了,基于MySQL跑的OLAP分析语句越来越,都跑不动了,

这个时候这套架构就有点问题了

儒猿技术窝的《从0开始带你成为MySQL实战高手》,MySQL的B树索引原理,索引里的

数据很多,内存放不下太多的缓存页,索引深度很深,每次就算基于索引搜索,也要在磁盘

里大量的磁盘IO才可以

维度1、维度2、维度3

维度1-聚合

维度1+维度2-聚合

维度2+维度3-聚合

维度1+维度2+维度3-聚合

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档