数据挖掘-关联分析基本概念和算法.ppt

下载文档 降价啦

13
0
约7.84千字
约 57页
2019-07-14 发布于山东
举报
保障服务

数据挖掘-关联分析基本概念和算法.ppt

第6章：关联分析 — 基本概念和算法关联分析的预备知识频繁项集的产生频繁项集产生的优化策略计算复杂度的影响因素规则产生关联模式的评估计算复杂度的影响因素最小支持度阈值的选择低支持度阈值导致更多频繁项集将会增加候选项集的个数和频繁项集的最大长度数据库的维度，即项的个数需要更多空间保存每个项的支持度计数如果频繁项集的个数增加，则计算量和 I/O开销也增加数据库的大小由于Apriori多次访问数据库，算法的运行时间将随事务个数的增加而增加平均事务长度频繁项集的最大长度随事务的平均宽度增加而增加因为事务的子集个数随着其长度的增加而增加，会增加支持度计数时hash树的遍历次数练习题将Apriori算法应用于下面的事务数据库，最小支持度为50%，画出Apriori算法的运行过程。 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {B, C, E} Itemset sup {B, C, E} 2 第6章：关联分析 — 基本概念和算法关联分析的预备知识频繁项集的产生频繁项集产生的优化策略计算复杂度的影响因素规则产生关联模式的评估规则产生给定一个频繁项集L，寻找L的所有非空真子集 f 使 f ? L－f 的置信度大于等于给定的置信度阈值如果{A,B,C,D}是频繁项集，则候选的规则包括: ABC ?D, ABD ?C, ACD ?B, BCD ?A, A ?BCD, B ?ACD, C ?ABD, D ?ABCAB ?CD, AC ? BD, AD ? BC, BC ?AD, BD ?AC, CD ?AB, 如果|L| = k，则有2k – 2个候选的关联规则 (忽略 L ? ? 和 ? ? L) 规则产生如何从频繁项集高效生成规则? 一般地说，置信度没有反单调性质比如，c(ABC ?D) 可以大于或小于 c(AB ?D) 但从同一个项集生成的规则的置信度具有反单调性质比如，L = {A,B,C,D}: c(ABC ? D) ? c(AB ? CD) ? c(A ? BCD) 针对规则后件的项集，置信度是反单调的：如果规则 X? Y－X 不满足置信度阈值，则形如X’?Y－X’的规则也不满足置信度阈值，其中X’是X的子集规则产生的Apriori算法假设规则BCD=A具有较低置信度，则可以丢弃后件包含A的所有规则。剪掉的规则低置信度规则规则格规则产生的Apriori算法 [候选产生] 通过合并两个规则的后件产生候选规则比如合并(CD=AB,BD=AC)得到候选规则D = ABC [候选前剪枝] 如果规则 AD=BC 不满足置信度阈值，则D=ABC也不满足置信度阈值，删除该规则 [置信度计算] [候选后剪枝] 第6章：关联分析 — 基本概念和算法关联分析的预备知识频繁项集的产生频繁项集产生的优化策略计算复杂度的影响因素规则产生关联模式的评估关联模式评估关联规则算法倾向于产生大量的规则很多产生的规则是不感兴趣的或冗余的如果 {A,B,C} ? {D} 和 {A,B} ? {D} 具有相同的支持度和置信度，则{A,B,C} ? {D} 是冗余的兴趣度可以用于对产生的规则进行过滤或排序在原来的关联规则定义中，支持度和置信度是唯一使用的度量兴趣度度量客观度量: 基于从数据推导出的统计量来确定模式是否有趣比如一些关联性度量 (支持度、置信度、拉普拉斯、Gini指标、互信息、Jaccard，等等) 主观度量: 根据用户的解释来确定模式是否有趣如果一个模式揭示料想不到的信息，那么它是主观有趣的 (Silberschatz Tuzhilin) 如果一个模式是可操作的 (actionable)，即提供导致有益行动的有用信息，那么它是主观有趣的 (Silberschatz Tuzhilin) 兴趣度的应用兴趣度度量计算客观兴

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘-关联分析基本概念和算法.ppt