关联规则挖掘Apriori算法.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则 Apriori 挖掘 1.1 概述 ? 关联规则 (Association Rule Mining) 挖掘是数据挖掘中 最活跃的研究方法之一 ? 最早是由 R.Agrawal 等人提出的 ? 其目的是为了发现超市交易数据库中不同商品之间的关 联关系。 ? 一个典型的关联规则的例子是: 70% 购买了牛奶的顾客 将倾向于同时购买面包。 ? 经典的关联规则挖掘算法: Apriori 算法和 FP-growth 算 法 1.2 引例 ? 假定某超市销售的商品包括: bread 、 bear 、 cake 、 cream 、 milk 和 tea 交易号 TID 顾 客 购 买 商 品 Items T1 bread cream milk tea T2 bread cream milk T3 cake milk T4 milk tea T5 bread cake milk T6 bread tea T7 beer milk tea T8 bread tea T9 bread cream milk tea T10 bread milk tea 1.2 引例 ? 定义 1.1 项目与项集 ? 设 I={i1,i2, … ,im} 是 m 个不同项目的集合,每 个 ik(k=1 , 2 , …… , m) 称 为 一 个 项 目 (Item) 。 ? 项目的集合 I 称为项目集合 (Itemset) ,简称 为项集。其元素个数称为项集的长度,长 度为 k 的项集称为 k- 项集 (k-Itemset) 。 1.2 引例 ? 定义 1.2 交易 ? 每笔交易 T(Transaction) 是项集 I 上的一个子集,即 T ? I , 但通常 T ? I 。 ? 对应每一个交易有一个唯一的标识 —— 交易号,记作 TID ? 交易的全体构成了交易数据库 D ,或称交易记录集 D , 简称交易集 D 。 ? 交易集 D 中包含交易的个数记为 |D| 。 1.2 引例 ? 定义 1.3 项集的支持度 ? 对于项集 X , X ? I ,设定 count(X ? T) 为交易 集 D 中包含 X 的交易的数量 ? 项集 X 的支持度 support(X) 就是项集 X 出现 的概率,从而描述了 X 的重要性。 | D | T) count(X support(X) ? ? 1.2 引例 ? 定义 1.5 关联规则 ? 关联规则 (Association Rule) 可以表示为一 个蕴含式: ? R : X ? Y 1.2 引例 ? 定义 1.6 关联规则的支持度 ? 对于关联规则 R : X ? Y ,其中 X ? I,Y ? I ,并 且 X ? Y= ? ,规则 R 的的支持度 (Support) 是 交易集中同时包含 X 和 Y 的交易数与所有交 易数之比。 | D | Y) count(X Y) support(X ? ? ? 1.2 引例 ? 定义 1.7 关联规则的可信度 ? 对于关联规则 R : X ? Y ,其中 X ? I,Y ? I ,并 且 X ? Y= ? ,规则 R 的可信度 (Confidence) 是 指包含 X 和 Y 的交易数与包含 X 的交易数之 比 support(X) Y) support(X Y) (X confidence ? ? ? 1.2 引例 ? 定义 1.8 关联规则的最小支持度和最小可信度 ? 关联规则的最小支持度也就是衡量频繁集的最小支持度 (Minimum Support) ,记为 supmin ,它用于衡量规则需 要满足的最低重要性。规则的最小可信度 (Minimum Confidence) 记为 confmin ,它表示关联规则需要满足的 最低可靠性。 1.2 引例 ? 定义 1.9 强关联规则 ? 如 果 规 则 X ? Y 满 足 : support(X ? Y) ? supmin 且 confidence(X ? Y) ? confmin ,称关联规则 X ? Y 为强关联 规则,否则称关联规则 X ? Y 为弱关联规则。在挖掘关 联规则时,产生的关联规则要经过 supmin 和 confmin 的 衡量,筛选出来的强关联规则才能用于指导商家的决

文档评论(0)

yusuyuan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档