关联规则中经典Apriori算法研究.docVIP

  • 4
  • 0
  • 约2.51千字
  • 约 7页
  • 2018-08-21 发布于福建
  • 举报
关联规则中经典Apriori算法研究

关联规则中经典Apriori算法研究   摘 要:本文主要介绍了关联规则中的Apriori算法。通过对该算法的研究,挖掘数据之间的联动关系。   关键词:关联;Apriori   Apriori算法使用了逐层查寻的方式,一遍一遍的扫描事务数据库,得到各层频繁K项集,并利用当层得到的K项集,生成候选的(K+1)项集,直到不能再生成频繁K项集为止。关联挖掘问题被分成如下2个问题:⑴寻找所有的这样的项的集合,它们的支持度不小于用户指定的最小支持度阈值,这样的集合称为频繁项集。⑵利用频繁项集产生规则。一般的想法是,如果B1,B2,B3和B1,B2是频繁项集,那么通过计算置信度,conf=P(B1B2B3)/P(B1B2)来确定{B1,B2,B3}这个规则是否成立,当它不小于最小置信度阈值时,规则成立。为了避免需要算出所有项集的支持度,Apriori引入了候选项集概念,并将候选项集记为Ck。这里需要介绍关联规则两条重要的性质,如下:(1)频繁项集的所有非空子集也必须是频繁的。 (2)非频繁项集的所有超集一定是非频繁的。   例如,如果项集{ B1,B2}是非频繁的,即数据库中同时包含的B1,B2的事务的个数小于min_sup,那么数据库中同时包含B1,B2,B3的事务的个数肯定是小于min_sup的,即{B1,B2,B3}一定是非频繁的。而Apriori算法只运用了性质(1),通过

文档评论(0)

1亿VIP精品文档

相关文档