- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘第二讲学材
* * 关联规则挖掘 的主要挑战 主要挑战:会产生大量满足min_sup的项集,尤其当min_sup设置得低的时候 E.g. 一个长度为100的频繁项集{a1,a2,…,a100}包含的频繁项集的总个数为 关联规则挖掘分类 (1) 根据挖掘的模式的完全性分类:给定min_sup,可以挖掘频繁项集的完全集,闭频繁项集和极大频繁项集。也可以挖掘被约束的频繁项集(即满足用户指定的一组约束的频繁项集)、近似的频繁项集(只推导被挖掘的频繁项集的近似支持度计数)、接近匹配的频繁项集(即与接近或几乎匹配的项集的支持度计数符合的项集)、top-k频繁项集 关联规则挖掘分类 (2) 根据规则集所涉及的抽象层 单层关联规则 多层关联规则 (挖掘的规则集由多层关联规则组成) E.g. 下例购买的商品涉及不同的抽象级 根据规则中设计的数据维 单维关联规则 E.g.(仅涉及buys这个维) 多维关联规则 关联规则挖掘分类 (3) 根据规则中所处理的值类型 布尔关联规则(规则考虑的关联为项是否出现) 量化关联规则(规则描述量化的项或属性间的关联) 根据所挖掘的规则类型分类 关联规则 相关规则 强梯度联系 关联规则挖掘分类 (4) 根据所挖掘的模式类型分类 频繁项集挖掘 从事务或关系数据集中挖掘频繁项集 序列模式挖掘 从序列数据集中搜索频繁子序列 结构模式挖掘 在结构化数据集中搜索频繁子结构 由事务数据库挖掘单维布尔关联规则 最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。 最小支持度 50% 最小置信度 50% 对规则A ? C,其支持度 =50% 置信度 APRIORI算法 (1) Apriori算法是挖掘布尔关联规则频繁项集的算法 Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。 先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。 APRIORI算法 (2) Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。 模式不可能比A更频繁的出现 Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。 Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率 APRIORI算法步骤 Apriori算法由连接和剪枝两个步骤组成。 连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。 Lk-1中的两个元素L1和L2可以执行连接操作 的条件是 Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk 。 为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。 APRIORI算法——示例 Database TDB 1st scan C1 L1 L2 C2 C2 2nd scan C3 L3 3rd scan Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} Itemset sup {A, B} 1 {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 Itemset sup {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset {A,B,C} {B, C, E} Itemset sup {B, C, E} 2 使用APIORI性质由L2产生C3 1 .连接: C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项: {A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的
您可能关注的文档
- 数值分析(计算方法)第七章.ppt
- 敞开心扉学会沟通上课课件1.ppt
- 数值分析4-06.ppt
- 教科版必修1 .弹 力课件.ppt
- 散文阅读ppt.ppt
- 数值的机器运算.ppt
- 数字信号处理第三章-1.ppt
- 数字信号处理第一章差分方程、抽样.ppt
- 敬畏生命(优质课竞赛).ppt
- 数字图像处理 第六章 图像的几何变换.ppt
- 中国国家标准 GB 14287.5-2025电气火灾监控系统 第5部分:测量热解粒子式电气火灾监控探测器.pdf
- 《GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存》.pdf
- GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 《GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求》.pdf
- 《GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备》.pdf
- GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备.pdf
- GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 中国国家标准 GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
最近下载
- 战伤救护理论考核题库.pdf VIP
- 华为 H14-311 V1.0 HCIA-openGauss认证考试复习题库(含答案).docx VIP
- 第5章 二元一次方程组单元测试(B卷提升篇)(原卷版).docx VIP
- 医学课件-卵巢囊肿PPT课件.pptx VIP
- 华为H14-311 HCIA openGauss openGauss数据库考试题库-下(判断、填空).docx VIP
- 北师大2024七年级上册数学 七年级数学上册期末复习易错题32个必考点(100题)(必考点分类集训)(北师大版2024)(解析版).docx
- 14 -二元一次方程组(原卷版)(七年级数学下册知识点讲与练(人教版)).docx VIP
- 自动化内容审核与合规管理方案.doc VIP
- 现代农业创新与乡村振兴战略智慧树知到期末考试答案章节答案2024年华南农业大学.docx VIP
- 影像科图像伪影管理与质量改进PDCA循环报告.docx
原创力文档


文档评论(0)