《数据仓库与数据挖掘》课件 4 关联规则挖掘理论和算法.ppt

下载文档 降价啦

4
0
约1.68万字
约 69页
2017-12-31 发布于江西
举报
版权申诉
保障服务

《数据仓库与数据挖掘》课件 4 关联规则挖掘理论和算法.ppt

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《数据仓库与数据挖掘》课件 4 关联规则挖掘理论和算法

Data Mining: Concepts and Techniques 基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法关联规则挖掘是数据挖掘研究的基础关联规则挖掘（Association Rule Mining）是数据挖掘中研究较早而且至今仍活跃的研究方法之一。最早是由Agrawal等人提出的（1993）。最初提出的动机是针对购物篮分析（Basket Analysis）问题提出的，其目的是为了发现交易数据库（Transaction Database）中不同商品之间的联系规则。关联规则的挖掘工作成果颇丰。例如，关联规则的挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘以及数量关联规则挖掘等。关联规则挖掘是数据挖掘的其他研究分支的基础。事务数据库设I={ i1，i2，…，im }是一个项目集合，事务数据库D={ t1，t2，…，tn }是由一系列具有唯一标识TID的事务组成，每个事务ti（i=1，2，…，n）都对应I上的一个子集。一个事务数据库可以用来刻画：购物记录： I是全部物品集合， D是购物清单，每个元组ti是一次购买物品的集合（它当然是I的一个子集）。其它应用问题支持度与频繁项目集定义（项目集的支持度）. 给定一个全局项目集I和事务数据库D，一个项目集I1?I在D上的支持度（Support）是包含I1的事务在D中所占的百分比： support（ I1 ）=| {t? D | I1 ?t}| / | D|。定义（频繁项目集）.给定全局项目集I和事务数据库D ，D中所有满足用户指定的最小支持度（Minsupport）的项目集，即大于或等于minsupport的I的非空子集，称为频繁项目集（频集：Frequent Itemsets）。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集（最大频集： Maximum Frequent Itemsets）。可信度与关联规则定义（关联规则与可信度）.给定一个全局项目集I和事务数据库D，一个定义在I和D上的关联规则形如I1?I2，并且它的可信度或信任度或置信度（Confidence）是指包含I1和I2的事务数与包含I1的事务数之比，即： Confidence（I1?I2）= P（ I1 | I2 ） Confidence（I1?I2）= support（I1∪I2）/ support（I1），其中I1，I2?I，I1∩I2=Ф。定义（强关联规则）. D在I上满足最小支持度和最小信任度（Minconfidence）的关联规则称为强关联规则（Strong Association Rule）。关联规则挖掘基本过程关联规则挖掘问题可以划分成两个子问题： 1. 发现频繁项目集:通过用户给定Minsupport ，寻找所有频繁项目集或者最大频繁项目集。 2．生成关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则。第1个子问题是近年来关联规则挖掘算法研究的重点。基本概念与解决方法经典的频繁项目集生成算法分析 Apriori算法的性能瓶颈问题 Apriori的改进算法对项目集格空间理论的发展基于项目序列集操作的关联规则挖掘算法改善关联规则挖掘质量问题约束数据挖掘问题关联规则挖掘中的一些更深入的问题数量关联规则挖掘方法项目集格空间理论定理1（ Appriori 属性1）. 如果项目集X 是频繁项目集，那么它的所有非空子集都是频繁项目集。证明设X是一个项目集，事务数据库T 中支持X 的元组数为s。对X的任一非空子集为Y，设T中支持Y的元组数为s1。根据项目集支持数的定义，很容易知道支持X 的元组一定支持Y，所以s1 ≥s，即support（Y） ≥ support（X）。按假设：项目集X 是频繁项目集，即support(X)≥ minsupport，所以support（Y）≥ support（X）≥ minsupport，因此Y是频繁项目集。定理2（ Appriori 属性2）.如果项目集X 是非频繁项目集，那么它的所有超集都是非频繁项目集。证明（略）经典的发现频繁项目集算法 1994年，Agrawal 等人提出了著名的Apriori 算法。算法1 Apriori（发现频繁项目集） apriori-gen过程算法apriori中调用了apriori-gen（Lk-1），是为了通过（k-1）-频集