《数据挖掘》第六章 挖掘大型数据库中的关联规则.ppt

《数据挖掘》第六章 挖掘大型数据库中的关联规则.ppt

* 示 例 (1)等宽: 将相距较近的数值分为几组(区间),而其中许多组中都没有数值; (2)等高: 将相距较远的数值,如[20, 50]组织在一起。 (3)基于距离方法: 将相邻很近的数值,如[20, 22]组织在一起。由于其考虑了一个间隔中数据点的数目或密度,以及各数据点之间相近的程度,从而能产生一个更有意义的离散化。 * 什么是关联规则挖掘? Apriori算法的基本原理? 什么是多层关联规则挖掘? 什么是多维关联规则挖掘? 复习与思考问题 * * * * * * * 在挖掘2-项集时,因为2-项集的任何子集都是频繁项集,所以Apriori算法使用L1*L1来产生候选集。{*}运算通常定义为: Lk*Lk={X∪Y 其中X,Y∈Lk,|X ∪ Y|=k+1} 注: |X ∪ Y|=k+1,即X和Y合取容量为k+1 因此,第二次迭代中的候选集C2由运算|L1|·|L1-1|/2所产生,其个数为:4·3/2=6。用该列表来扫描DB,计算每一个候选集的支持度,并与smin进行比较,产生2-项频繁集L2。图5-2给出了所有这些步骤和第二次迭代的结果。 APRIORI算法过程 APRIORI算法过程 候选集C3 运用L2*L2来产生,运算结果得到{A,B,C},{A,C,E},{B,C,E},但只有{B,C,E}的所有子集是频繁项集,成为候选的3-项

文档评论(0)

1亿VIP精品文档

相关文档