- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据仓库与数据挖掘》课件PPT_4_关联规则挖掘理论和算法
Data Mining: Concepts and Techniques 基本概念与解决方法 经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法 对项目集格空间理论的发展 基于项目序列集操作的关联规则挖掘算法 改善关联规则挖掘质量问题 约束数据挖掘问题 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法 关联规则挖掘是数据挖掘研究的基础 关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。 最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。 关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘以及数量关联规则挖掘等。 关联规则挖掘是数据挖掘的其他研究分支的基础。 事务数据库 设I={ i1,i2,…,im }是一个项目集合,事务数据库D={ t1,t2,…,tn }是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。 一个事务数据库可以用来刻画: 购物记录: I是全部物品集合, D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。 其它应用问题 支持度与频繁项目集 定义(项目集的支持度). 给定一个全局项目集I和事务数据库D,一个项目集I1?I在D上的支持度(Support)是包含I1的事务在D中所占的百分比: support( I1 )=| {t? D | I1 ?t}| / | D|。 定义(频繁项目集).给定全局项目集I和事务数据库D ,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集: Maximum Frequent Itemsets)。 可信度与关联规则 定义(关联规则与可信度).给定一个全局项目集I和事务数据库D,一个定义在I和D上的关联规则形如I1?I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事务数与包含I1的事务数之比,即: Confidence(I1?I2)= P( I1 | I2 ) Confidence(I1?I2)= support(I1∪I2)/ support(I1), 其中I1,I2?I,I1∩I2=Ф。 定义(强关联规则). D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则(Strong Association Rule)。 关联规则挖掘基本过程 关联规则挖掘问题可以划分成两个子问题: 1. 发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。 2.生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。 第1个子问题是近年来关联规则挖掘算法研究的重点。 基本概念与解决方法 经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法 对项目集格空间理论的发展 基于项目序列集操作的关联规则挖掘算法 改善关联规则挖掘质量问题 约束数据挖掘问题 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法 项目集格空间理论 定理1( Appriori 属性1). 如果项目集X 是频繁项目集,那么它的所有非空子集都是频繁项目集。 证明 设X是一个项目集,事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y,设T中支持Y的元组数为s1。 根据项目集支持数的定义,很容易知道支持X 的元组一定支持Y,所以s1 ≥s,即support(Y) ≥ support(X)。 按假设:项目集X 是频繁项目集,即support(X)≥ minsupport, 所以support(Y)≥ support(X)≥ minsupport,因此Y是频繁项目集。 定理2( Appriori 属性2).如果项目集X 是非频繁项目集,那么它的所有超集都是非频繁项目集。证明 (略) 经典的发现频繁项目集算法 1994年,Agrawal 等人提出了著名的Apriori 算法。 算法1 Apriori(发现频繁项目集) apriori-gen过程 算法apriori中调用了apriori-gen(Lk-1),是为了通过(k-1)-频集
您可能关注的文档
- 《古代诗歌四首》课件2(34张)(人教版七年级上).ppt
- 《卡通大亮相课件》小学美术湘教版三年级上册_8.ppt
- 《只有一个地球1地球生命的摇篮课件》小学品德与社会教科版六年级下册.ppt
- 《合欢树》课件_(冀教版七年级上).ppt
- 《卡通大亮相课件》小学美术湘教版三年级上册_2.ppt
- 《卡通大亮相课件》小学美术湘教版三年级上册_5.ppt
- 《名校学案》高中地理选修六(人教版)课件第一章环境与环境问题阶段复习课.ppt
- 《周末日记课件》小学美术湘教版五年级上册_1.ppt
- 《只有一个地球4守望碧水蓝天课件》小学品德与社会教科版六年级下册.ppt
- 《名校学案》高中地理选修六(人教版)课件第三章自然资源的利用与保护阶段复习课.ppt
- 《数据仓库与数据挖掘》课件PPT_5_分类方法.ppt
- 《敬老节课件》小学品德与生活未来社2001课标版二年级下册课件_1.ppt
- 《数据仓库与数据挖掘》课件PPT_6_聚类方法.ppt
- 《数据仓库与数据挖掘》课件PPT_7_文本挖掘序列分析Web 挖掘.ppt
- 《数据的收集》课件1(20张PPT)(鲁教版八年级上).ppt
- 《数据的收集》课件1(15张ppt)(湘教版七年级上).ppt
- 《数据的收集》课件3(14张ppt)(鲁教版八年级上).ppt
- 《新闻法规与管理》教案五(x)课件.ppt
- 《数据的收集》课件2(18张ppt)(湘教版七年级上).ppt
- 《旋转课件》小学数学人教版五年级下册_4.ppt
文档评论(0)