数据挖掘第二讲学材
* * 关联规则挖掘 的主要挑战 主要挑战:会产生大量满足min_sup的项集,尤其当min_sup设置得低的时候 E.g. 一个长度为100的频繁项集{a1,a2,…,a100}包含的频繁项集的总个数为 关联规则挖掘分类 (1) 根据挖掘的模式的完全性分类:给定min_sup,可以挖掘频繁项集的完全集,闭频繁项集和极大频繁项集。也可以挖掘被约束的频繁项集(即满足用户指定的一组约束的频繁项集)、近似的频繁项集(只推导被挖掘的频繁项集的近似支持度计数)、接近匹配的频繁项集(即与接近或几乎匹配的项集的支持度计数符合的项集)、top-k频繁项集 关联规则挖掘分类 (2) 根据规则集所涉及的抽象层 单层关联规则 多层关联规则 (挖掘的规则集由多层关联规则组成) E.g. 下例购买的商品涉及不同的抽象级 根据规则中设计的数据维 单维关联规则 E.g.(仅涉及buys这个维) 多维关联规则 关联规则挖掘分类 (3) 根据规则中所处理的值类型 布尔关联规则(规则考虑的关联为项是否出现) 量化关联规则(规则描述量化的项或属性间的关联) 根据所挖掘的规则类型分类 关联规则 相关规则 强梯度联系 关联规则挖掘分类 (4) 根据所挖掘的模式类型分类 频繁项集挖掘 从事务或关系数据集中挖掘频繁项集 序列模式挖掘 从序列数据集中搜索频繁子序列 结构模式挖掘 在结构化数据集中搜索频繁子结构 由事务数据库挖掘单维布尔关联规则 最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。 最小支持度 50% 最小置信度 50% 对规则A ? C,其支持度 =50% 置信度 APRIORI算法 (1) Apriori算法是挖掘布尔关联规则频繁项集的算法 Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。 先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。 APRIORI算法 (2) Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。 模式不可能比A更频繁的出现 Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。 Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率 APRIORI算法步骤 Apriori算法由连接和剪枝两个步骤组成。 连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。 Lk-1中的两个元素L1和L2可以执行连接操作 的条件是 Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk 。 为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。 APRIORI算法——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {A,B,C} {B, C, E} Itemset sup {B, C, E} 2 使用APIORI性质由L2产生C3 1 .连接: C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项: {A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的
您可能关注的文档
- 数值分析(计算方法)第七章.ppt
- 敞开心扉学会沟通上课课件1.ppt
- 数值分析4-06.ppt
- 教科版必修1 .弹 力课件.ppt
- 散文阅读ppt.ppt
- 数值的机器运算.ppt
- 数字信号处理第三章-1.ppt
- 数字信号处理第一章差分方程、抽样.ppt
- 敬畏生命(优质课竞赛).ppt
- 数字图像处理 第六章 图像的几何变换.ppt
- 《GB/T 21561.1-2025轨道交通 机车车辆 受电弓特性和试验 第1部分:机车车辆受电弓》.pdf
- 《GB/T 6346.2301-2025电子设备用固定电容器 第23-1部分:空白详细规范表面安装金属化聚萘二甲酸乙二醇酯膜介质直流固定电容器 评定水平EZ》.pdf
- 2026年中国城市建设史复习题200道含答案(基础题).docx
- 2026年注册会计师(CPA)考试题库200道及1套参考答案.docx
- 60103交通事故案卷文书 标准 ga 40-2018.pdf.pdf
- 小升初衔接第一讲:基础词汇与句型综合梳理与运用(基于Starters 14).docx
- 四级公路设计关键要素教学课件.pptx
- Unit7SectionA2a-2e课件鲁教版英语六年级下册.pptx
- 初中地理八年级:探秘台湾省环境与经济协同发展.docx
- Unit2Success单元重点单词单句写作练习课件-北师大版高中英语选择性(1).pptx
原创力文档

文档评论(0)