第2章 数据仓库和数据挖掘的OLAP技术 数据挖掘:概念与技术 教学课件.ppt

第2章 数据仓库和数据挖掘的OLAP技术 数据挖掘:概念与技术 教学课件.ppt

第2章 数据仓库和数据挖掘的OLAP技术 数据挖掘:概念与技术 教学课件

全物化方法   全物化是指对维集合的所有可能组合都进行聚集。最为简单的全物化方法是通过计算n维事实表中的元组,依次得到2n个聚集数据并存储到多维数据集中。当数据立方的维数增多,维的层次更趋复杂时,可能的聚集计算量将剧增,导致存储空间爆炸现象的发生。   为降低聚集计算量,减少存储空间的使用,可以采用多种改进方法,根据参与聚集计算的数据的范围分为单个方体的聚集计算和基于依赖关系的聚集计算两类。   *   典型的单方体聚集计算方法是基于数组方式的聚集计算方法,该方法包括四种形式:   G-Aggregation   M-Aggregation   Infix-Aggregation   Prefix-Aggregation   单个方体计算方法会进行多次重复的I/O操作,因此计算效率很低。   并不是所有的聚集都需要从基础数据开始计算,利用方体之间的依赖关系从子方体汇总计算父方体可以加速聚集计算的过程。基于该思想的聚集计算方法包括基于排序(sort- based)和基于哈希(hash-based)的算法:PipeSort,PipeHash和Overlap。这类方法先估计数据立方的各种计算方式的代价,确定其计算顺序和导出关系,其目的是使数据立方的计算开销最小。   *   上述聚集计算方法特别指针以ROLAP形式存储的数据立方,适合于MOLAP的经典聚集计算方法是多路数组聚集方法。它在

文档评论(0)

1亿VIP精品文档

相关文档