关联规则挖掘Apriori算法.pptVIP

下载本文档

76
0
约2.38千字
约 25页
2016-11-28 发布于重庆
举报
版权申诉

关联规则挖掘Apriori算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关联规则挖掘Apriori算法

关联规则Apriori挖掘 1.1 概述关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一最早是由R.Agrawal等人提出的其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是：70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法：Apriori算法和FP-growth算法 1.2 引例假定某超市销售的商品包括：bread、bear、cake、cream、milk和tea 交易号TID 顾客购买商品Items T1 bread cream milk tea T2 bread cream milk T3 cake milk T4 milk tea T5 bread cake milk T6 bread tea T7 beer milk tea T8 bread tea T9 bread cream milk tea T10 bread milk tea 1.2 引例定义1.1 项目与项集设I={i1,i2,…,im}是m个不同项目的集合，每个ik(k=1，2，……，m)称为一个项目(Item)。项目的集合I称为项目集合(Itemset)，简称为项集。其元素个数称为项集的长度，长度为k的项集称为k-项集(k-Itemset)。 1.2 引例定义1.2 交易每笔交易T(Transaction)是项集I上的一个子集，即T?I，但通常T?I。对应每一个交易有一个唯一的标识——交易号，记作TID 交易的全体构成了交易数据库D，或称交易记录集D，简称交易集D。交易集D中包含交易的个数记为|D|。 1.2 引例定义1.3 项集的支持度对于项集X，X?I，设定count(X?T)为交易集D中包含X的交易的数量项集X的支持度support(X)就是项集X出现的概率，从而描述了X的重要性。 1.2 引例定义1.5 关联规则关联规则(Association Rule)可以表示为一个蕴含式： R：X?Y 1.2 引例定义1.6 关联规则的支持度对于关联规则R：X?Y，其中X?I,Y?I，并且X?Y=?，规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。 1.2 引例定义1.7 关联规则的可信度对于关联规则R：X?Y，其中X?I,Y?I，并且X?Y=?，规则R的可信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比 1.2 引例定义1.8 关联规则的最小支持度和最小可信度关联规则的最小支持度也就是衡量频繁集的最小支持度(Minimum Support)，记为supmin，它用于衡量规则需要满足的最低重要性。规则的最小可信度(Minimum Confidence)记为confmin，它表示关联规则需要满足的最低可靠性。 1.2 引例定义1.9 强关联规则如果规则X?Y满足：support(X?Y)?supmin且confidence(X?Y)?confmin，称关联规则X?Y为强关联规则，否则称关联规则X?Y为弱关联规则。在挖掘关联规则时，产生的关联规则要经过supmin和confmin的衡量，筛选出来的强关联规则才能用于指导商家的决策。 1、Apriori算法 Apriori算法命名源于算法使用了频繁项集性质的先验（Prior）知识。 Apriori算法将发现关联规则的过程分为两个步骤：通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。 Apriori的性质：性质1：频繁项集的所有非空子集必为频繁项集。性质2：非频繁项集的超集一定是非频繁的。 Apriori的步骤：连接步：为找Lk ，通过将Lk-1与自身连接产生候选k项集的集合剪枝步：Ck是Lk 的超集，也就是说，Ck的成员可以是也可以不是频繁的，但所有的频繁k项集都包含在Ck中。任何非频繁的（k-1）项集都不是频繁k项集的子集。 4.3.1 Apriori算法 1.3.1 Apriori算法 apriori_gen(Lk-1, supmin)算法 1.3.1 Apriori算法 has_infrequent_subset(c, Lk-1)算法 Apriori算法实例现有A、B、C、D、E五种商品的交易记录表，试找出三种商品关联销售情况(k=3)，最小支持度=50%。实例解答 K=1 支持度50