- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八讲 挖掘频繁模式、关联和相关 Mining Frequent Patterns, Association and Correlations 基本概念和线路图 有效的和可伸缩的频繁项集挖掘方法 挖掘各种类型的关联规则(自学) 关联规则到相关分析 基于约束的关联规则(自学) 小结 What Is Frequent Pattern Analysis? 频繁模式(Frequent pattern): 频繁地出现在数据集中的模式(项集,子序列或子结构等)。 提出:Agrawal, Imielinski, and Swami [AIS93] 动机:寻找数据内部隐含的关联 哪些商品频繁地被同时购买?— Beer and diapers?! 买了PC机之后客户经常还会购买哪些相关商品? 哪种DNA对这种新病毒很敏感? 我们能自动对Web上的文档进行分类吗? 应用 购物篮分析、交叉销售、目录设计、点击流分析、DNA序列分析…… Why Is Freq. Pattern Mining Important? 挖掘数据集内在且重要的属性 频繁模式是纵多数据挖掘基本任务的基础 关联、相关与因果分析 序列、结构(如“子图”)分析 时空数据、多媒体数据、时间序列数据、流数据上的模式分析 分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山立方体 基于语义的数据压缩 …… 关联规则的分类方法 根据规则中所处理的值类型 布尔关联规则:考虑项的“在与不在” 量化关联规则:量化的项或属性之间的关联Age(X,”30~39”)∧income(X,”42~48K”)=buys(X,”high_resolution_TV”) 根据规则中所涉及的数据维(谓词) 单维 buys(X,”computer”)=buys(X,” financial_management_software”) 多维 :见上例 根据规则集所涉及的抽象层:单层、多层 Age(X, “30~39”)=buys(X,”laptop computer”) Age(X, “30~39”)=buys(X,”computer”) 根据挖掘模式的完全性 频繁项集的完全集、闭频繁项集和极大频繁项集、被约束的频繁项集、近似频繁项集…… 根据挖掘的规则类型分类 关联规则、相关规则、强梯度联系等 根据挖掘的模式类型分类 频繁项集挖掘、序列模式挖掘、结构模式挖掘 基本概念 项集:Itemset X = {x1, …, xk} 找出满足规则 X ? Y 的最小支持度与置信度 support, s, probability that a transaction contains X ? Y confidence, c, conditional probability that a transaction having X also contains Y 关联规则 形如A=B的蕴涵式(A?I, B ?I, A?B=?) D={t1,t2,..tk..tn} tk={i1,i2,…im..ip},im称为项目Item I={i1,i2,..,im}是项的集合 规则A=B在数据集D中成立,具有支持度s和置信度c 规则兴趣度的两个度量 支持度(support):事务集中事务包含A?B的百分比。——反映了规则的有用性 Support(A=B) = P(A?B) 最小支持度阈值min_sup 支持度计数 置信度(confidence):事务集中包含A的事务同时也包含B的百分比——反映了规则的确定性 Confidence(A =B) = P(B|A) 最小置信度阈值min_conf 强规则:满足min_sup和min_conf的规则 例如: Computer=financial_management_software [support=2%,confidence=60%] 有关概念 项集:项的集合。 K-项集:包含k个项的项集 项集的频率:包含项集的事务数 频繁项集:支持度不小于min_sup的项集 挖掘关联规则的过程 找出所有频繁项集(中心问题) 由频繁项集产生强关联规则 Mining Frequent Patterns, Association and Correlations 基本概念和线路图 有效的和可伸缩的频繁项集挖掘方法 挖掘各种类型的关联规则 关联规则到相关分析 基于约束的关联规则 小结 Scalable Methods for Mining Frequent Patterns The downward closure property of frequent patterns Any subset of a frequent itemset must be frequent If {beer,
您可能关注的文档
最近下载
- 11.色彩属性 纯度对比.ppt
- 运动损伤的预防与处理PPT模板课件工作总结汇报.pptx VIP
- 13.整体拆除铁塔专项施工方案(模板).doc
- 工程小包工接单合同协议.docx VIP
- 广东省茂名市2024-2025学年高一(上)期末数学试卷(含答案).pdf VIP
- 世界香水广告案例——以香奈儿和迪奥为例.ppt VIP
- 统计分析入门与应用-SPSS-中文版-+-SmartPLS-4-中文版说明书.pdf VIP
- (高清版)B-T 9797-2022 金属及其他无机覆盖层 镍、镍+铬、铜+镍和铜+镍+铬电镀层.pdf VIP
- 金蝉电子投标文件编辑器操作指南-金蝉平台.PDF VIP
- 05R502 燃气工程设计施工26建筑工程 图集 .docx VIP
原创力文档


文档评论(0)