数据挖掘关联规则.ppt

下载文档 降价啦

8
0
约4.68万字
约 140页
2017-02-13 发布于河南
举报
版权申诉
保障服务

数据挖掘关联规则.ppt

1、本文档共140页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘关联规则

AA12 关联规则史忠植内容提要引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法多维关联规则挖掘相关规则基于约束的关联规则挖掘总结关联规则关联规则表示了项之间的关系示例: cereal, milk ? fruit “买谷类食品和牛奶的人也会买水果.” 商店可以把牛奶和谷类食品作特价品以使人们买更多的水果. 市场购物篮分析分析事务数据库表我们是否可假定? Chips = Salsa Lettuce = Spinach 基本概念通常, 数据包含: 关联规则挖掘在事务数据库,关系数据库和其它信息库中的项或对象的集合之间,发现频繁模式,关联,相关,或因果关系的结构. 频繁模式: 数据库中出现频繁的模式(项集,序列,等等) 基本概念项集事务关联规则事务数据集 (例如右图) 事务标识 TID：每一个事务关联着一个标识度量有趣的关联规则支持度s D中包含A和 B 的事务数与总的事务数的比值规则 A?B 在数据集D中的支持度为s, 其中s 表示D中包含A?B (即同时包含A和B)的事务的百分率. 度量有趣的关联规则可信度 c D中同时包含A和B的事务数与只包含A的事务数的比值度量有趣的关联规则关联规则根据以下两个标准(包含或排除): 最小支持度 – 表示规则中的所有项在事务中出现的频度最小可信度 - 表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度市场购物篮分析 I是什么? 事务ID B的T是什么? s(Chips=Salsa) 是什么? c(Chips=Salsa)是什么? Step one: 频繁项集项集 – 任意项的集合 k-项集 – 包含k个项的项集频繁 (或大)项集 – 满足最小支持度的项集若I包含m个项,那么可以产生多少个项集? Step two:强关联规则给定一个项集,容易生成关联规则. 项集: {Chips, Salsa, Beer} Beer, Chips = Salsa Beer, Salsa = Chips Chips, Salsa = Beer 强规则是有趣的强规则通常定义为那些满足最小支持度和最小可信度的规则. 关联规则挖掘两个基本步骤 Step one:找出所有的频繁项集满足最小支持度 Step two:找出所有的强关联规则由频繁项集生成关联规则保留满足最小可信度的规则内容提要引言 Apriori 算法 Frequent-pattern tree 和FP-growth 算法多维关联规则挖掘相关规则基于约束的关联规则挖掘总结生成频繁项集 Na?ve algorithm n - |D| for each subset s of I do l - 0 for each transaction T in D do if s is a subset of T then l - l + 1 if minimum support = l/n then add s to frequent subsets 生成频繁项集 na?ve algorithm的分析 I 的子集: O(2m) 为每一个子集扫描n个事务测试s为T的子集: O(2mn) 随着项的个数呈指数级增长! 我们能否做的更好? Apriori 性质定理(Apriori 性质): 若A是一个频繁项集,则A的每一个子集都是一个频繁项集. 证明:设n为事务数.假设A是l个事务的子集,若 A’ ? A , 则A’ 为l’ (l’ ? l )个事务的子集.因此, l/n ≥s(最小支持度), l’/n ≥s也成立. Apriori 算法 Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法.算法名字是缘于算法使用了频繁项集的性质这一先验知识. 思想: Apriori 使用了一种称作level-wise搜索的迭代方法,其中k-项集被用作寻找(k+1)-项集. 首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项集被发现.每个Lk都要求对数据库作一次完全扫描.. 生成频繁项集中心思想: 由频繁(k-1)-项集构建候选k-项集方法找到所有的频繁1-项集扩展频繁(k-1)-项集得到候选k-项集剪除不满足最小支持度的候选项集 Apriori: 一种候选项集生成-测试方法 Apriori 剪枝原理: 若任一项集是不频繁的,则其超集不应该被生成/测试! 方法: 由频繁k-项集生成候选(k+1