- 1
- 0
- 约1.17万字
- 约 73页
- 2016-08-05 发布于湖北
- 举报
费高雷
通信与信息工程学院
2015年春季
第6章 挖掘频繁模式、关联和相关性:基本概念和方法
2
第6章:挖掘频繁模式、关联和相关性:基本概念和方法
基本概念
频繁项集挖掘方法
那些模式是有趣的:模式评估方法
小结
3
什么是频繁模式分析?
频繁模式: 频繁出现在数据集中的模式(如项集、子序列或子结构)
首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出,称为频繁项集和关联规则挖掘
驱动:发现数据中的内在规律
超市数据中的什么产品会一起购买?— 啤酒和尿布
在买了一台PC之后下一步会购买?
哪种DNA对这种药物敏感?
我们如何自动对Web文档进行分类?
更加广泛的用处
购物篮分析、交叉销售、直销
点击流分析、DNA序列分析等等
什么是频繁模式分析?
5
频繁模式挖掘为什么重要?
频繁模式: 数据集内在和重要的属性
许多重要数据挖掘任务的基础
关联, 相关, 和因果分析
序列模式,空间模式(比如子图)
时空模式分析, 多媒体, 时间序列和流数据
分类: discriminative, frequent pattern analysis
聚类分析: 基于频繁模式的聚类
数据仓库: iceberg cube and cube-gradient
语义数据压缩: fascicles
更广泛应用
6
关联规则基本模型
设I={i1, …, im}为所有项目的集合;D为事务数据库,事务T是一个项目子集(T?I)。每一个事务具有唯一的事务标识TID
项集:由项目构成的集合,为了方便表述用用A表示
事务T包含项集A,当且仅当A?T
如果项集A中包含k个项目,则称其为k项集
支持度:项集A在事务数据库D中出现的次数占D中总事务的百分比
频繁项集(或大项集):项集的支持度超过用户给定的最小支持度阈值
I={a, b, c, d, e, f}
若A={a, c},则A的支撑度为50%
项
属性
一个事物
数据对象
7
关联规则基本模型
关联规则是形如X?Y的逻辑蕴含式,其中X?I,Y?I,且X?Y=?
如果事务数据库D中有s%的事务包含X?Y,则称关联规则X?Y的支持度为s%
实际上,支持度是一个概率值,是一个相对计数
support (X?Y)=P (X ?Y)
项集的支持度计数(频率) support_count
包含项集的事务数
若项集X的支持度记为support (X),规则的信任度为support (X?Y)/support (X)
是一个条件概率P (Y | X)
confidence (X?Y)=P (Y | X)=support _count(X?Y)/support_count (X)
8
频繁模式和关联规则
itemset X={x1, …, xk}
找出满足最小支持度和置信度的所规则 X ? Y
支持度s:事务包含 X?Y的概率
置信度c:事务含X也包含Y的条件概率
Transaction-id
Items bought
10
A, B, D
20
A, C, D
30
A, D, E
40
B, E, F
50
B, C, D, E, F
令supmin = 50%, confmin = 50%
频繁模式:{A:3, B:3, D:4, E:3, AD:3}
关联规则:
A ? D (60%, 100%)
D ? A (60%, 75%)
9
挖掘关联规则—一个例子
规则 A ? C:
支持度 = support({A}?{C}) = 50%
置信度 = support({A}?{C})/support({A}) = 66.6%
最小支持度 50%
最小置信度 50%
Transaction-id
Items bought
10
A, B, C
20
A, C
30
A, D
40
B, E, F
Frequent pattern
Support
{A}
75%
{B}
50%
{C}
50%
{A, C}
50%
挖掘关联规则(实际例子)
11
闭频繁项集和极大频繁项集
一个长模式包含子模式的数目:e.g., {a1, …, a100} contains (1001) + (1002) + … + (110000) = 2100 – 1 = 1.27*1030 sub-patterns!
解: 引入闭频繁项集和极大频繁项集
闭项集:不存在具有相同支持度的真超项集
闭频繁项集:如果X是频繁的,且不存在真超项集(super-pattern)Y(X ? Y),使 X、Y有相同的支持度计数
(proposed by Pasquier, et al. @ ICDT’99)
极大频繁项集:如果X是频繁的,并且不存在超项集Y使得X ? Y,并且Y是频繁的
(propos
原创力文档

文档评论(0)