第5章数据挖掘-1.pptVIP

  • 18
  • 0
  • 约8.4千字
  • 约 54页
  • 2017-02-03 发布于湖北
  • 举报
第5章数据挖掘-1

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 即,Lk-1的元素l1和l2是可连接的,若: ( l1[1] = l2[1] ∧ l1 [2] = l2 [2] ∧ … ∧ l1[k-2] = l2[k-2] ∧ l1[k-1] l2[k-1] ) 而条件(l1[k-1] l2[k-1])可确保不产生 重复的项集。 31 (2)剪枝步 Ck是Lk的超集,即它的成员不一定 都是频繁项集,但所有的频繁k-项集都 包含在Ck中。 扫描数据库,确定Ck中每个候选项 集的计数,从而确定Lk。然而, Ck可能 很大,这样所涉及的计算量就很大。 32 为了压缩Ck,可利用Apriori性质: 任何非频繁的(k-1)-项集都不可能是频繁 k-项集的子集。因此,若一个候选k-项 集的(k-1)-项子集不在Lk-1中,则该候选 也不可能是频繁的,从而可以从Ck中删除。 33 34 TID 项ID的列表 【例3 】一个Apriori的具体例子,该例基于右图某商店的事务DB。DB中有9个事务,Apriori假定事务中的项按字典次序存放。 T100 T200 T300 T400 T500 T600 T700 T800 T900 I1,I2,I5 I2,I4 I2,I

文档评论(0)

1亿VIP精品文档

相关文档