第六讲 关联规则Apriori算法与应用.pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六讲 关联规则Apriori算法与应用

CLEMENTINE 12 --ASSOCIATION (APRIORI ) 关联规则APRIORI介绍 Agrawal 等于1993 年首先提出了挖掘顾客交易数 据库中项集间的关联规则问题,并设计Apriori 算法, 以后诸多的研究人员对关联规则的挖掘问题进行了大 量的研究。 Apriori 算法是单维单层次布尔关联规则挖掘的一 种经典算法,是挖掘产生布尔关联规则所需频繁项集 的基本算法;Apriori 算法就是根据有关频繁项集特性 的先验知识(prior knowledeg ) 而命名的。 它是一个很有影响的算法,其他类型的关联规则 算法通常是Apriori 算法的变形。 关联规则的相关判定准则 1.支持度(Support):又称普遍性。 2.置信度(Confidence):出现X且再出现Y 的比例, 是一个条件机率。 3.增益(Lift):又称兴趣度。为期望置信度(后项 支持度),表示在没有任何条件影响下,后项Y出 现的可能性,及置信度与期望置信度的比。 运动鞋Y 单独购买 合计 1 球鞋Y 慢跑鞋Y 11 12 衬衣X 10 10 1 夹克X 400 100 40 540 上衣X 21 外套X2 滑雪衫X22 200 200 60 460 单独购买 50 40 合 计 650 340 1000 增益:增益是两种可能性的比较,一种是在已知购买了左 置信度:是指购物篮分析中有了左边商品,同时又有右边商 支持度:表示在购物篮分析中同时包含关联规则左右两边物 边商品情况下购买右边商品的可能性,另一种是任 品的交易次数百分比,也就是说在所有的购买了左 品的交易次数百分比,即支持这个规则的交易的次 意情况下购买右边商品的可能性。 边商品的交易中,同时又购买右边商品的交易概率。 数百分比。 lift(X21Y11) = P(Y11|X21)/ P(Y11) sup(X21Y11) = P(X21Y11) =400/1000= 40% confidence(X21Y11) = P(Y11|X21) =P(X21Y11)/P(X21)= 74.1% = 74.1%/65% = 1.14% 关联法则的相关判定准则关联法则的相关判定准则 1.高置信度,低支援度: 关联规则真正可取,还需要具备以下两个条件 : 夹克球鞋”的置信度高达100%,但因为只有一人 买了球鞋,这条关联规则支持度只有千分之一 2.置信度都比较高,但几乎是没有作用的规则 1.人们常识之外、意料之外的关联 “买方便面则买牛奶”,“买牙刷则买牛奶”, “喜欢野外休闲则会买牛奶” 2.该规则必须具有潜在的作用 3.高增益,低支援度: 其中一人与夹克

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档