数据挖掘原理与算法03改解析.ppt

* * 3.4 提高Apriori算法效率的技术 一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关技术,在一定程度上改善了Apriori算法适应性和效率。 主要的改进方法有: 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。 基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。 基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。 * * 基于数据分割的方法 定理3-5 设数据集D被分割成分块D1, D2, …, Dn,全局最小支持数为minsup_count。如果一个数据分块Di 的局部最小支持数minsup_counti (i 1,2,…,n),按着如下方法生成: minsup_counti minsup_count *||Di|| / ||D|| 则所有的局部频繁项目集涵盖全局频繁项目集。 作用: 1.合理利用主存空间:数据分割将大数据集分成小的块,为块内数据一次性导入主存提供机会。 2.支持并行挖掘算法:每个分块的局部频繁项目集是独立生成的,因此提供了开发并行数据挖掘算法的良好机制。 * * 基于散列的方法 1995,Park等发现寻找频繁项目集的主要计算是在生成2-频繁项目集上。因此,Park等利用了这个性质引入杂凑技术来改进产生2-频繁项目集的方法。 例子:桶地址 (10x+y)mod 7;minsupport_count 3 TID Items 1 I1,I2,I5 2 I2,I4 3 I2,I3 4 I1,I2,I4 5 I1,I3 6 I2,I3 7 I1,I3 8 I1,I2,I3,I5 9 I1,I2,I3 桶地址 0 1 2 3 4 5 6 桶计数 2 2 4 2 2 4 4 桶内 I1,I4 I1,I5 I2,I3 I2,I4 I2,I5 I1,I2 I1,I3 I3,I5 I1,I5 I2,I3 I2,I4 I2,I5 I1,I2 I1,I3 I2,I3 I1,I2 I1,I3 I2,I3 I1,I2 I1,I3 L2 I2,I3 , I1,I2 , I1,I3 * * 第三章 关联规则挖掘理论和算法 内容提要 3.5 对项目集格空间理论的发展 Close算法 FP-tree算法 * * 探索新的理论 随着数据库容量的增大,重复访问数据库(外存)将导致性能低下。因此,探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用,已经成为近年来关联规则挖掘研究的热点之一。 两个典型的方法: Close算法 FP-tree算法 * * Close算法对应的原理 一个频繁闭合项目集的所有闭合子集一定是频繁的;一个非频繁闭合项目集的所有闭合超集一定是非频繁的。 什么是一个闭合的项目集? 一个项目集C是闭合的,当且仅当对于在C中的任何元素,不可能在C中存在小于或等于它的支持度的子集。 例如,C1 AB3,ABC2 是闭合的; C2 AB2,ABC2 不是闭合的; * * Close算法的例子 下面是Close算法作用到表4-1数据集的执行过程(假如minsup_count 3): 扫描数据库得到L1 A,3 , B,5 , C,4 , D,3 , E,3 ;相应关闭项目集为 Cl A ABC,3 ,Cl B B,5 ,Cl C BC,4 ,Cl D BD,3 ,Cl E BE,3 ; L2 AB,3 , AC,3 , BC,4 , BD,3 , BE,3 ;相应关闭集为C2 AB ABC,3 ; L3,L4,L5不用测,于是频繁大项集为 ABC 。 样本数据库 TID Itemset 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D * * FP-tree算法的基本原理 进行2次数据库扫描:一次对所有1-项目的频度排序;一次将数据库信息转变成紧缩内存结构。 不使用侯选集,直接压缩数据库成一个频繁模式树,通过频繁模式树可以直接得到频集。 基本步骤是: 两次扫描数据库,生成频繁模式树FP-Tree: 扫描数据库一次,得到所有1-项目的频度排序表T; 依照T,再扫描数据库,得到FP-Tree。 使用FP-Tree,生成频集: 为FP-tree中的每个节点生成条件模式库; 用条件模式库构造对应的条件FP-tree;

文档评论(0)

1亿VIP精品文档

相关文档