CHAPTER6-挖掘关联规则精编.pptVIP

  • 1
  • 0
  • 约1.17万字
  • 约 73页
  • 2016-08-05 发布于湖北
  • 举报
费高雷 通信与信息工程学院 2015年春季 第6章 挖掘频繁模式、关联和相关性:基本概念和方法 2 第6章:挖掘频繁模式、关联和相关性: 基本概念和方法 基本概念 频繁项集挖掘方法 那些模式是有趣的:模式评估方法 小结 3 什么是频繁模式分析? 频繁模式: 频繁出现在数据集中的模式(如项集、子序列或子结构) 首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出,称为频繁项集和关联规则挖掘 驱动:发现数据中的内在规律 超市数据中的什么产品会一起购买?— 啤酒和尿布 在买了一台PC之后下一步会购买? 哪种DNA对这种药物敏感? 我们如何自动对Web文档进行分类? 更加广泛的用处 购物篮分析、交叉销售、直销 点击流分析、DNA序列分析等等 什么是频繁模式分析? 5 频繁模式挖掘为什么重要? 频繁模式: 数据集内在和重要的属性 许多重要数据挖掘任务的基础 关联, 相关, 和因果分析 序列模式,空间模式(比如子图) 时空模式分析, 多媒体, 时间序列和流数据 分类: discriminative, frequent pattern analysis 聚类分析: 基于频繁模式的聚类 数据仓库: iceberg cube and cube-gradient 语义数据压缩: fascicles 更广泛应用 6 关联规则基本模型 设I={i1, …, im}为所有项目的集合;D为事务数据库,事务T是一个项目子集(T?I)。每一个事务具有唯一的事务标识TID 项集:由项目构成的集合,为了方便表述用用A表示 事务T包含项集A,当且仅当A?T 如果项集A中包含k个项目,则称其为k项集 支持度:项集A在事务数据库D中出现的次数占D中总事务的百分比 频繁项集(或大项集):项集的支持度超过用户给定的最小支持度阈值 I={a, b, c, d, e, f} 若A={a, c},则A的支撑度为50% 项 属性 一个事物 数据对象 7 关联规则基本模型 关联规则是形如X?Y的逻辑蕴含式,其中X?I,Y?I,且X?Y=? 如果事务数据库D中有s%的事务包含X?Y,则称关联规则X?Y的支持度为s% 实际上,支持度是一个概率值,是一个相对计数 support (X?Y)=P (X ?Y) 项集的支持度计数(频率) support_count 包含项集的事务数 若项集X的支持度记为support (X),规则的信任度为support (X?Y)/support (X) 是一个条件概率P (Y | X) confidence (X?Y)=P (Y | X)=support _count(X?Y)/support_count (X) 8 频繁模式和关联规则 itemset X={x1, …, xk} 找出满足最小支持度和置信度的所规则 X ? Y 支持度s:事务包含 X?Y的概率 置信度c:事务含X也包含Y的条件概率 Transaction-id Items bought 10 A, B, D 20 A, C, D 30 A, D, E 40 B, E, F 50 B, C, D, E, F 令supmin = 50%, confmin = 50% 频繁模式:{A:3, B:3, D:4, E:3, AD:3} 关联规则: A ? D (60%, 100%) D ? A (60%, 75%) 9 挖掘关联规则—一个例子 规则 A ? C: 支持度 = support({A}?{C}) = 50% 置信度 = support({A}?{C})/support({A}) = 66.6% 最小支持度 50% 最小置信度 50% Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F Frequent pattern Support {A} 75% {B} 50% {C} 50% {A, C} 50% 挖掘关联规则(实际例子) 11 闭频繁项集和极大频繁项集 一个长模式包含子模式的数目:e.g., {a1, …, a100} contains (1001) + (1002) + … + (110000) = 2100 – 1 = 1.27*1030 sub-patterns! 解: 引入闭频繁项集和极大频繁项集 闭项集:不存在具有相同支持度的真超项集 闭频繁项集:如果X是频繁的,且不存在真超项集(super-pattern)Y(X ? Y),使 X、Y有相同的支持度计数 (proposed by Pasquier, et al. @ ICDT’99) 极大频繁项集:如果X是频繁的,并且不存在超项集Y使得X ? Y,并且Y是频繁的 (propos

文档评论(0)

1亿VIP精品文档

相关文档