- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]关联规则挖掘理论和算法
Data Mining: Concepts and Techniques 第三章 关联规则挖掘理论和算法 内容提要 基本概念与解决方法 经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法 对项目集格空间理论的发展 基于项目序列集操作的关联规则挖掘算法 改善关联规则挖掘质量问题 约束数据挖掘问题 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法 关联规则挖掘是数据挖掘研究的基础 关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。 最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。 关联规则的挖掘工作成果颇丰。例如,关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。 关联规则挖掘是数据挖掘的其他研究分支的基础。 事务数据库 设I={ i1,i2,…,im }是一个项目集合,事务数据库D={ t1,t2,…,tn }是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。 一个事务数据库可以用来刻画: 购物记录: I是全部物品集合, D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。 其它应用问题 支持度与频繁项目集 定义(项目集的支持度). 给定一个全局项目集I和数据库D,一个项目集I1?I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support( I1 )=|| {t? D | I1 ?t}|| / || D||。 定义(频繁项目集).给定全局项目集I和数据库D ,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集: Maximum Frequent Itemsets)或最大大项目集(Maximum Large Iitemsets)。 可信度与关联规则 定义(关联规则与可信度).给定一个全局项目集I和数据库D,一个定义在I和D上的关联规则形如I1?I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事务数与包含I1的事务数之比,即 Confidence(I1?I2)= support(I1∪I2)/ support(I1), 其中I1,I2?I,I1∩I2=Ф。 定义(强关联规则). D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则(Strong Association Rule)。 关联规则挖掘基本过程 关联规则挖掘问题可以划分成两个子问题: 1. 发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。 2.生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。 第1个子问题是近年来关联规则挖掘算法研究的重点。 第三章 关联规则挖掘理论和算法 内容提要 基本概念与解决方法 经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法 对项目集格空间理论的发展 基于项目序列集操作的关联规则挖掘算法 改善关联规则挖掘质量问题 约束数据挖掘问题 关联规则挖掘中的一些更深入的问题 数量关联规则挖掘方法 项目集格空间理论 Agrawal等人建立了用于事务数据库挖掘的项目集格空间理论(1993, Appriori 属性)。 定理( Appriori 属性1). 如果项目集X 是频繁项目集,那么它的所有非空子集都是频繁项目集。 证明 设X是一个项目集,事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y,设T中支持Y的元组数为s1。 根据项目集支持数的定义,很容易知道支持X 的元组一定支持Y,所以s1 ≥s,即support(Y) ≥ support(X)。 按假设:项目集X 是频繁项目集,即support(X)≥ minsupport, 所以support(Y)
文档评论(0)