关联规则中经典Apriori算法研究.docVIP

下载本文档

4
0
约2.51千字
约 7页
2018-08-21 发布于福建
举报

关联规则中经典Apriori算法研究.doc

关联规则中经典Apriori算法研究

关联规则中经典Apriori算法研究　　摘要：本文主要介绍了关联规则中的Apriori算法。通过对该算法的研究，挖掘数据之间的联动关系。　　关键词：关联；Apriori 　　Apriori算法使用了逐层查寻的方式，一遍一遍的扫描事务数据库，得到各层频繁K项集，并利用当层得到的K项集，生成候选的（K+1）项集，直到不能再生成频繁K项集为止。关联挖掘问题被分成如下2个问题：⑴寻找所有的这样的项的集合，它们的支持度不小于用户指定的最小支持度阈值，这样的集合称为频繁项集。⑵利用频繁项集产生规则。一般的想法是，如果B1，B2，B3和B1，B2是频繁项集，那么通过计算置信度，conf=P（B1B2B3）/P（B1B2）来确定{B1，B2，B3}这个规则是否成立，当它不小于最小置信度阈值时，规则成立。为了避免需要算出所有项集的支持度，Apriori引入了候选项集概念，并将候选项集记为Ck。这里需要介绍关联规则两条重要的性质，如下：（1）频繁项集的所有非空子集也必须是频繁的。（2）非频繁项集的所有超集一定是非频繁的。　　例如，如果项集{ B1，B2}是非频繁的，即数据库中同时包含的B1，B2的事务的个数小于min_sup，那么数据库中同时包含B1，B2，B3的事务的个数肯定是小于min_sup的，即{B1，B2，B3}一定是非频繁的。而Apriori算法只运用了性质（1），通过

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

关联规则中经典Apriori算法研究.docVIP