第二章数据仓库和数据挖掘的OLAP技术.pptVIP

  • 1
  • 0
  • 约1.48万字
  • 约 109页
  • 2022-07-13 发布于重庆
  • 举报

第二章数据仓库和数据挖掘的OLAP技术.ppt

数据立方体的有效计算 数据立方体可以看作是方体的格 最底层的方体称为基本方体 最高层 (顶点)方体只包含一个单元 一个具有L层的n维数据立方体一共有多少个方体? 数据立方体的物化 预先计算所有方体(全物化), 不预先计算(不物化), 或者有选择的物化(部分物化) 物化方体的选择 考虑存储需求量、访问频率和开销、工作负荷的特点等 第六十二页,共一百零九页。 数据立方体的计算 用DMQL定义和计算数据立方体 define cube sales[item, city, year]: sum(sales_in_dollars) compute cube sales 转换为类似SQL的语句 (使用一种新的操作符 cube by(Gray et al.’96)) SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year 需要计算下面的聚集子集 (date, product, customer), (date,product),(date, customer), (product, customer), (date), (product), (customer) () (item) (city) () (year) (city, item) (city, year) (item, year) (city, item, year) 第六十三页,共一百零九页。 基于ROLAP的数据立方体 计算方法(1) 有效率的数据立方体计算方法 基于ROLAP的立方体算法 (Agarwal et al’96) 基于数组的立方体算法 (Zhao et al’97) 自下向上的计算方法 (Bayer Ramarkrishnan’99) 基于ROLAP的立方体算法 排序、散列和分组操作用于维属性,以便对相关元组重新排序和聚类 在某些子聚集上分组,作为“部分分组步骤” 可以由以前计算的聚集计算新的聚集,而不必由基本事实表计算 第六十四页,共一百零九页。 基于ROLAP的数据立方体计算方法(2) 基于散列、排序的方法 (Agarwal et. al. VLDB’96) 挑选最小的“父方体”: 从以前计算的方体中挑选最小的方体计算新的方体 存储计算结果:将方体计算结果存储起来,用于其他方体的计算,有利于减少系统I/O 减少扫描:同时计算尽可能多的方体,减少读磁盘次数 共享排序成本:当使用基于排序的计算方法时,合理分配多维立方体上的排序成本 共享分割成本:当使用基于散列的计算方法时,合理分配多维立方体上的分割成本 第六十五页,共一百零九页。 数据立方体计算中的 多路数组聚集(1) 将数组分割成块(可以放入内存的子方) 压缩稀疏数组结构(使用chunk_id+offset寻址) 通过访问立方体单元计算聚集。可以优化访问单元的次序,使得每个单元必须重复访问的次数最小化,从而减少存储访问开销和存储开销 在多路数组聚集中,怎样确定立方体的最佳访问途径? A B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C B 44 28 56 40 24 52 36 20 60 第六十六页,共一百零九页。 数据立方体计算中的 多路数组聚集(2) A B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C 44 28 56 40 24 52 36 20 60 B 第六十七页,共一百零九页。 数据立方体计算中的 多路数组聚集(3) A B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C 44 28 56 40 24 52 36 20 60 B 第六十八页,共一百零九页。 数据立方体计算中的 多路数组聚集(4) 计算方法:数据立方体中各块平面必须按它们的大小递增排序和计算 具体请参考P50-51例2.12 主要思想:在内存中存储具有最小面积的块平面,而对于具有最大面积的块平面,每次只取其中的一块进行计算 算法的局限性:只适合于具有少数维的数据立方体 这种算法要计算的方体个数随维数指数增长,为了避免维增长灾难,可以尝试使用“自底向上”计算方法和冰山方计算方法 第六十九页,共一百零九页。 索引OLAP数据:位图索引 在给定的属性上进行

文档评论(0)

1亿VIP精品文档

相关文档