大数据经典算法Apriori讲解概要.pptVIP

下载本文档

3
0
约3.98千字
约 16页
2017-08-21 发布于湖北
举报
版权申诉

大数据经典算法Apriori讲解概要.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据经典算法Apriori讲解概要

数据挖掘：概念和技术数据挖掘：概念和技术基于Apriori算法小例子关联规则挖掘的一个典型例子是购物篮分析。市场分析员要从大量的数据中发现顾客放入其购物篮中的不同商品之间的关系。例如，买牛奶的顾客有80%也同时买面包，或买铁锤的顾客中有70%的人同时也买铁钉，这就是从购物篮数据中提取的关联规则。分析结果可以帮助经理设计不同的商店布局。一种策略是：经常一块购买的商品可以放近一些，以便进一步刺激这些商品一起销售。另一种策略是：将硬件和软件放在商店的两端，可能诱发购买这些商品的顾客一路挑选其他商品。 Apriori算法是挖掘布尔关联规则频繁项集的算法，是现行大多数关联规则算法的基础 Apriori算法通过逐层搜索的迭代方法，即将k-项集用于探察(k+1)-项集，来穷尽数据集中的所有频繁项集。先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2，接着用L2找L3，直到找不到频繁k-项集，找每个Lk需要一次数据库扫描。 APRIORI算法 Apriori算法利用的是Apriori性质：频繁项集的所有非空子集也必须是频繁的。 Apriori算法是反单调的，即一个集合如果不能通过测试，则该集合的所有超集也不能通过相同的测试。算法思想该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递归的方法。算法：Apriori。使用逐层迭代方法基于候选产生找出频繁项集。输入： D:实物数据库； Min_sup:最小支持度计数阈值。输出：L：D中的频繁项集。方法： L1=find_frequent_1-itemsets(D); //挖掘频繁1-项集 for(k=2;Lk-1 !=￠；k++){ Ck=apriori_gen(Lk-1); //调用apriori_gen方法生成候选频繁k-项集 For each 事务 t∈D{ //扫描事务数据库D用于计数 Ct=subset(Ck,t); //得到t的子集，它们是候选 for each候选c∈C; C.count++; //?统计候选频繁k-项集的计数 } Lk={c∈C|c.count=min_stp} //?满足最小支持度的k-项集即为频繁k-项集 } return L=UkLk；?//?合并频繁k-项集（k0） Apriori伪代码 Procedure apriori_gen(Lk-1:frequent(k-1)-itemsets) for each项集l1∈Lk-1 for each项集l2∈Lk-1 If (l1[1]=l2[1]) ^ (l1[2]=l2[2]) ^… (l1[k-2]=l2[k-2]) ^ (l1[k-1]=l2[k-1]) then{ c=l1∞l2//连接：产生候选 if has_infrequent_subset(c,Lk-1)then delete c;//剪枝；删除非频繁的候选 else add c to Ck； } return Ck； Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {A,B,C} {B, C, E} Itemset sup {B, C, E} 2 1 . 连接： C3= {{A,B,C},{A,C,E},{B,C,E}} 2．使用Apriori性质剪枝：频繁项集的所有子集必须是频繁的，对候选项C3，我们可以删除其子集为非频繁的选项： {A,B,C}的2项子集是{A,B},{A,C},{B,C}，其中{A,B}不是L2的元素，所以删除这个选项； {A,C,E}的2项子