3-AssociationRule.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3-AssociationRule.ppt

数据挖掘:关联规则 谭 毅 华 内 容 关联规则概念 基于频繁项集挖掘的关联规则 多层关联规则 多维关联规则 从关联挖掘到相关分析 约束性关联规则 总结 关联规则挖掘 定义:从数据集中找出对象或项集之间同时发生的关联或顺序关系。 应用: 购物篮数据分析, 关联销售, 目录编排, 促销分析, web日志分析, DNA序列分析 Example 频繁模式概念(Frequent Pattern) 在数据集中经常发生的模式(项集、子序列或子结构) 对事务数据库 项集:包含一个或多个项的集合 {Milk, Bread, Diaper} K项集:含k项的集合 支持度计数(绝对) 项集发生的频率 Support_Count(({Milk, Bread,Diaper}) =2 支持度(相对) 事务集中项集发生的比例 Support({Milk, Bread, Diaper}) = 2/5 频繁项集 事务中支持度大于某个最低门限的项集 关联规则概念 找出所有的规则X ? Y , 使支持度和置信度分别大于门限 支持度: 事务中X和Y同时发生的比例,P(X ? Y) 置信度: 项集X发生时,Y同时发生的条件概率P(Y|X) 关联规则挖掘的目标 给定事务数据 T, 找出所有的规则满足以下条件 support ≥ minsup confidence ≥ minconf 穷举法: 列出所有的规则 计算每条规则的支持度和置信度 删除不满足门限条件的规则 ? Computationally prohibitive! 内 容 关联规则概念 基于频繁项集挖掘的关联规则 多层关联规则 多维关联规则 从关联挖掘到相关分析 约束性关联规则 总结 一个关联规则例子 基于频繁项集的关联规则挖掘步骤 两步骤: 频繁项集产生 产生所有的频繁项集其支持度 ? minsup 规则产生 对每个频繁项集产生置信度大于门限的规则, 每个规则为频繁项集的二进分割 频繁项集产生的复杂度仍然很高 频繁项集的产生 频繁项集产生的复杂度分析 穷举法 每个节点处的项集都是候选频繁项集 扫描数据库,计算每个项集的支持度 每个项集都需和事务进行匹配 复杂度 ~ O(NMw) = 非常高 M = 2d !!! 关联规则产生的复杂度 对d个不同项采用穷举法 总的项集为 2d 总的可能规则数为 降低复杂度的方法 降低候选数 (M) 全搜索: M=2d 运用剪枝技术减小 M,如Apriori算法 减小事务数 (N) 随着项集尺寸的增加,减小N 如 DHP 和基于节点的挖掘算法 减小比较数 (NM) 用更有效的数据结构表达候选频繁集和事务 避免候选频繁级和每个事务进行比较计算支持度 频繁项集产生方法-Apriori算法 该方法是基于候选的策略,降低候选数 Apriori剪枝原则:若任何项集是非频繁的,则其超集必然是非频繁的(不用产生和测试超集) 该原则基于以下支持度的特性: 项集的支持度不会超过其子集 支持度的反单调特性(anti-monotone) Apriori算法的频繁集产生示意 Apriori算法 令 k=1 产生长度为1的频繁项集 循环,直到无新的频繁项集产生 从长度为k的频繁项集产生长度为k+1的候选频繁项集 连接步:项集的个项排序,前k-1个项相同 若候选频繁子集包含长度为k的非频繁子集,则剪枝 剪枝步:利用支持度属性原则 扫描数据库,计算每个候选频繁集的支持度 删除非频繁项, 保留频繁项 Apriori算法实例 进一步改善Apriori算法的性能 减少候选频繁集M数 存在的问题及对策 多次扫描数据库-减少对数据库扫描 划分 事务太多?压缩事务表达 压缩迭代扫描的事务数(不含k项频繁集必然不含k+1项频繁集) 抽样:数据库? 内存 支持度计算繁琐? 简化支持度计算步骤 Hash树表达候选频繁集 基于划分的方法 基于散列的技术-压缩候选k项集 Apriori算法的局限性 Apriori算法的核心 从k-1频繁项集形成k项频繁项集 扫描数据库的事务,和候选频繁项集匹配 效率瓶颈-产生候选 大候选集 104 频繁1项集产生 107 候选2项集 挖掘尺寸为 100的频繁模式, e.g., {a1, a2, …, a100}, 需产生 2100 ? 1030 候选. 多次扫描数据库 需 (n +1 ) 此扫描, n 为最长模式的长度 FP增长算法 优点 无需产生大量的候选频繁项 核心 数据库被压缩到频繁模式树(FP树) 用局部频繁项从短模式产生长模式。例 “abc” 为频繁项集 得到所有的 “abc”,将 DB投影到abc: DB|abc “d” 为局部频繁项 DB|abc ? abcd 为频繁模式 FP树构造

文档评论(0)

dmz158 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档