关联规则简介与Apriori算法解析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则简介与Apriori算法解析

关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出. 关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。 关联规则 “尿布与啤酒”的故事。 美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后,超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增加了销售额。 案例 70%购买了牛奶的顾客将倾向于同时购买面包。 某网上书店向用户推荐相关书籍。 案例 在买了一台PC之后下一步会购买? 案例 在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈,需要作进一步的调查; 在医疗方面,可找出可能的治疗组合; 在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等。 案例 什么是规则? 规则形如如果…那么…(If…Then…),前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。 如何来度量一个规则是否够好?有两个量,置信度(Confidence)和支持度(Support)。假设有如下表的购买记录。 关联规则基本模型 关联规则基本模型_置信度 置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率(即:if A ,then B的概率)。即 Confidence(A?B)=P(B|A)。例如计算“如果Orange则Coke”的置信度。由于在含有“橙汁”的4条交易中,仅有2条交易含有“可乐”。其置信度为0.5。 关联规则基本模型_支持度 支持度计算在所有的交易集中,既有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。则此条规则的支持度为 2/5=0.4,即Support(A?B)=P(AB)。 现在这条规则可表述为,如果一个顾客购买了橙汁,则有50%(置信度)的可能购买可乐。而这样的情况(即买了橙汁会再买可乐)会有40%(支持度)的可能发生。 关联规则的相关概念 定义1 项目与项集 设I={i1,i2,…,im}是m个不同项目的集合,每个ik(k=1,2,……,m)称为一个项目(Item)。 项目的集合 I 称为项目集合(Itemset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。 关联规则的相关概念 定义2 交易 每笔交易T(Transaction)是项集I上的一个子集,即T?I,但通常T?I。 对应每一个交易有一个唯一的标识——交易号,记作TID 交易的全体构成了交易数据库D,或称交易记录集D,简称交易集D。 交易集D中包含交易的个数记为|D|。 关联规则的相关概念 定义3 项集的支持度 对于项集X,X?I,设定count(X?T)为交易集D中包含X的交易的数量 项集X的支持度support(X)就是项集X出现的概率,从而描述了X的重要性。 关联规则的相关概念 定义4 项集的最小支持度与频繁集 发现关联规则要求项集必须满足的最小支持阈值,称为项集的最小支持度(Minimum Support),记为supmin。 支持度大于或等于supmin的项集称为频繁项集,简称频繁集,反之则称为非频繁集。 通常k-项集如果满足supmin,称为k-频繁集,记作Lk。 关联规则的相关概念 定义5 关联规则 关联规则(Association Rule)可以表示为一个蕴含式: R:X?Y 其中:X?I,Y?I,并且X?Y=? 。 例如:R:牛奶→面包 关联规则的相关概念 定义6 关联规则的支持度 对于关联规则R:X?Y,其中X?I,Y?I,并且X?Y=?。 规则R的的支持度(Support)是交易集中同时包含X和Y的交易数与所有交易数之比。 关联规则的相关概念 定义7 关联规则的置信度 对于关联规则R:X?Y,其中X?I,Y?I,并且X?Y=?。 规则R的置信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比 一般来说,只有支持度和置信度均较高的关联规则才是用户感

文档评论(0)

441113422 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档