数据挖掘-关联分析基本概念和算法.ppt

第6章:关联分析 — 基本概念和算法 关联分析的预备知识 频繁项集的产生 频繁项集产生的优化策略 计算复杂度的影响因素 规则产生 关联模式的评估 计算复杂度的影响因素 最小支持度阈值的选择 低支持度阈值导致更多频繁项集 将会增加候选项集的个数和频繁项集的最大长度 数据库的维度,即项的个数 需要更多空间保存每个项的支持度计数 如果频繁项集的个数增加,则计算量和 I/O开销也增加 数据库的大小 由于Apriori多次访问数据库,算法的运行时间将随事务个数的增加而增加 平均事务长度 频繁项集的最大长度随事务的平均宽度增加而增加 因为事务的子集个数随着其长度的增加而增加,会增加支持度计数时hash树的遍历次数 练习题 将Apriori算法应用于下面的事务数据库,最小支持度为50%,画出Apriori算法的运行过程。 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 第6章:关联分析 — 基本概念和算法 关联分析的预备知识 频繁项集的产生 频繁项集产生的优化策略 计算复杂度的影响因素 规则产生 关联模式的评估 规则产生 给定一个频繁项集L,寻找L的所有非空真子集 f 使 f ? L-f 的置信度大于等于给定的置信度阈值 如果{A,B,C,D}是频繁项集,则候选的规则包括: ABC ?D, ABD ?C, ACD ?B, BCD ?A, A ?BCD, B ?ACD, C ?ABD, D ?ABC AB ?CD, AC ? BD, AD ? BC, BC ?AD, BD ?AC, CD ?AB, 如果|L| = k,则有2k – 2个候选的关联规则 (忽略 L ? ? 和 ? ? L) 规则产生 如何从频繁项集高效生成规则? 一般地说,置信度没有反单调性质 比如,c(ABC ?D) 可以大于或小于 c(AB ?D) 但从同一个项集生成的规则的置信度具有反单调性质 比如,L = {A,B,C,D}: c(ABC ? D) ? c(AB ? CD) ? c(A ? BCD) 针对规则后件的项集,置信度是反单调的: 如果规则 X? Y-X 不满足置信度阈值, 则形如X’?Y-X’的规则也不满足置信度阈值, 其中X’是X的子集 规则产生的Apriori算法 假设规则BCD=A具有较低置信度,则可以丢弃后件包含A的所有规则。 剪掉的规则 低置信度规则 规则格 规则产生的Apriori算法 [候选产生] 通过合并两个规则的后件产生候选规则 比如合并(CD=AB,BD=AC) 得到候选规则D = ABC [候选前剪枝] 如果规则 AD=BC 不满足置信度阈值, 则D=ABC也不满足置信度阈值, 删除该规则 [置信度计算] [候选后剪枝] 第6章:关联分析 — 基本概念和算法 关联分析的预备知识 频繁项集的产生 频繁项集产生的优化策略 计算复杂度的影响因素 规则产生 关联模式的评估 关联模式评估 关联规则算法倾向于产生大量的规则 很多产生的规则是不感兴趣的或冗余的 如果 {A,B,C} ? {D} 和 {A,B} ? {D} 具有相同的支持度和置信度,则{A,B,C} ? {D} 是冗余的 兴趣度可以用于对产生的规则进行过滤或排序 在原来的关联规则定义中,支持度和置信度是唯一使用的度量 兴趣度度量 客观度量: 基于从数据推导出的统计量来确定模式是否有趣 比如一些关联性度量 (支持度、置信度、拉普拉斯、Gini指标、互信息、Jaccard,等等) 主观度量: 根据用户的解释来确定模式是否有趣 如果一个模式揭示料想不到的信息,那么它是主观有趣的 (Silberschatz Tuzhilin) 如果一个模式是可操作的 (actionable),即提供导致有益行动的有用信息,那么它是主观有趣的 (Silberschatz Tuzhilin) 兴趣度的应用 兴趣度度量 计算客观兴

文档评论(0)

1亿VIP精品文档

相关文档