关联规则挖掘——Apriori算法课件.pptVIP

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

关联规则Apriori挖掘

1.1概述?关联规则(AssociationRuleMining)挖掘是数据挖掘中最活跃的研究方法之一?最早是由R.Agrawal等人提出的?其目的是为了发现超市交易数据库中不同商品之间的关联关系。?一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。?经典的关联规则挖掘算法:Apriori算法和FP-growth算法

1.2引例?假定某超市销售的商品包括:bread、bear、cake、cream、milk和tea交易号TID顾客购买商品ItemsbreadcreammilkteaT1T2T3T4T5T6T7T8T9T10breadcreammilkcakemilkmilkteabreadcakemilkbreadteabeermilkteabreadteabreadcreammilkteabreadmilktea

1.2引例?定义1.1项目与项集?设I={i1,i2,…,im}是m个不同项目的集合,每个ik(k=1,2,……,m)称为一个项目(Item)。?项目的集合I称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。

1.2引例?定义1.2交易?每笔交易T(Transaction)是项集I上的一个子集,即T?I,但通常T?I。?对应每一个交易有一个唯一的标识——交易号,记作TID?交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。?交易集D中包含交易的个数记为|D|。

1.2引例?定义1.3项集的支持度?对于项集X,X?I,设定count(X?T)为交易集D中包含X的交易的数量?项集X的支持度support(X)就是项集X出现的概率,从而描述了X的重要性。

1.2引例?定义1.5关联规则?关联规则(AssociationRule)可以表示为一个蕴含式:R:X?Y?

1.2引例?定义1.6关联规则的支持度?对于关联规则R:X?Y,其中X?I,Y?I,并且X?Y=?,规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。

1.2引例?定义1.7关联规则的可信度?对于关联规则R:X?Y,其中X?I,Y?I,并且X?Y=?,规则R的可信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比

1.2引例?定义1.8关联规则的最小支持度和最小可信度?关联规则的最小支持度也就是衡量频繁集的最小支持度(MinimumSupport),记为supmin它用于衡量规则需要满足的最低重要性。规则的(MinimumConfidence)最小可信度confmin,它表示关联规则需要满足的最低可靠性。

1.2引例?定义1.9强关联规则?如果规则X?Y满足:support(X?Y)?supmin且confidence(X?Y)?confmin,称关联规则X?Y为强关联规则,否则称关联规则X?Y为弱关联规则。在挖掘关联规则时,产生的关联规则要经过supmin和confmin的衡量,筛选出来的强关联规则才能用于指导商家的决策。

1、Apriori算法?Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。?Apriori算法将发现关联规则的过程分为两个步骤:l通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;l利用频繁项集构造出满足用户最小信任度的规则。?挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。

Apriori的性质:?性质1:频繁项集的所有非空子集必为频繁项集。?性质2:非频繁项集的超集一定是非频繁的。

Apriori的步骤:?连接步:为找L通过将L与自身连接产生候选kk,k-1项集的集合?剪枝步:C是L的超集,也就是说,C的成员可以kkk是也可以不是频繁的,但所有的频繁k项集都包含在C中。任何非频繁的(k-1)项集都不是频繁k项k集的子集。

4.3.1Apriori算法

1.3.1Apriori算法?apriori_gen(Lk-1,supmin)算法

1.3.1Apriori算法?has_infrequent_subset(c,Lk-1)算法

Apriori算法实例现有A、B、C、D、E五种商品的交易记录表,试找出三种商品关联销售情况(k=3),最小支持度=50%。

实例解答K=1支持度50K=2支持度50支持度50

支持度50支持度50

Apriori算法的不足?可能产生大量的候选集?需要重复扫描数

您可能关注的文档

文档评论(0)

我老婆姓陈 + 关注
实名认证
文档贡献者

致力于分享知识。

1亿VIP精品文档

相关文档