- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Apriori算法步骤 Apriori算法由连接和剪枝两个步骤组成。 连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。 Lk-1中的两个元素L1和L2可以执行连接操作 的条件是 Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk 。 为了减少计算量,可以使用Apriori性质,即如果一个k-项集的 k-1 -子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。 Apriori算法步骤 首先,找出频繁“1项集”的集合,该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“K项集”。找每个Lk都需要一次数据库扫描。 核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。 Apriori算法步骤 简单的讲,1、发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集,重复步骤(1)~(5)直到不能发现更大的频集。 2、产生关联规则,过程为:根据前面提到的置信度的定义,关联规则的产生如下: (1)对于每个频繁项集L,产生L的所有非空子集; (2)对于L的每个非空子集S,如果 P(L)/P(S)≧min_conf 则输出规则“SàL-S” 注:L-S表示在项集L中除去S子集的项集 Apriori算法——例6.3 Apriori算法——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup A 2 B 3 C 3 D 1 E 3 Itemset sup A 2 B 3 C 3 E 3 Itemset A, B A, C A, E B, C B, E C, E Itemset sup A, B 1 A, C 2 A, E 1 B, C 2 B, E 3 C, E 2 Itemset sup A, C 2 B, C 2 B, E 3 C, E 2 Itemset B, C, E Itemset sup B, C, E 2 使用Apiori性质由L2产生C3 1 .连接: C3 L2 L2 A,C , B,C , B,E C,E A,C , B,C , B,E C,E A,B,C , A,C,E , B,C,E 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项: A,B,C 的2项子集是 A,B , A,C , B,C ,其中 A,B 不是L2的元素,所以删除这个选项; A,C,E 的2项子集是 A,C , A,E , C,E ,其中 A,E 不是L2的元素,所以删除这个选项; B,C,E 的2项子集是 B,C , B,E , C,E ,它的所有2-项子集都是L2的元素,因此保留这个选项。 3.这样,剪枝后得到C3 B,C,E 图6-3 :由L2产生和剪枝候选3项集的集合C3 Pseudo-code: Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 frequent items ; for k 1; Lk ! ?; k++ do begin Ck+1 candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 candidates in Ck+1 with min_support end return ?k Lk; 图6-4 Apriori算法 6.2.2由频繁项集产生关联规则 同时满足最小支持度和最小置信度的才是强关联规则,从频繁项集产生的规则都满足支持度要求,而其置信度则可由一下公式计算: 每个关联规则可由如下过程产生: 对于每个频繁项集L,产生L的所有非空子集; 对于每个非空子集s,如果 则输
文档评论(0)