Apriori算法分析.ppt

下载文档 降价啦

302
0
约2.89千字
约 17页
2018-05-17 发布于四川
举报
版权申诉
保障服务

Apriori算法分析.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* Apriori算法简介尤全增 ultimateyou@ 概要技术背景 1 算法描述 2 算法缺陷 3 算法优化 4 * 背景关联规则是Agrawal等人1993年首次提出来的，最初关联规则挖掘问题是在分析零售业事务数据库时提出来的，目的是为了发现交易数据库中不同商品之间的联系规则. * 关联规则描述关联规则形式：通常表示当项目产生时，在同一个事务集中也经常产生项目。例子： * 算法描述（关联规则基本概念）项目集合事务数据库唯一标识TID，支持度设，则 support( )= 频繁项目集最大频繁项目集 (Maximum Large Itemsets) * 算法描述（关联规则基本概念介绍）信任度(Confidence) 关联规则定义如下：其中, D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则. 关联规则挖掘问题就是通过用户指定Minsupport和Minconfidence来寻找强关联规则的过程. * 两个子问题发现频繁项目集通过用户指定的最小支持度，寻找所有频繁项目集,一般的只关心最大频繁项目集.发现频繁项目集是形成关联规则的基础. 生成关联规则通过用户指定的最小可信度，寻找Confidence不小于Minconfidence的关联规则. * 项目集空间理论定理1 如果项目集X是频繁项目集，那么它的所有非空子集都是频繁项目集. 定理2 如果项目集X是非频繁项目集，那么它的所有超集都是非频繁项目集. 定理3 设项目集X，X’是项目集X的一个子集，如果规则是强规则，则规则一定是强规则. * Apriori算法描述（一） Apriori(发现频繁项目集) 输入：数据集D；最小支持数Minsupport 输出：频繁项目集L (1) (2) (3) 是k个元素的候选集 (4) (5) 是所有包含在t里面的候选集 (6) (7) (8) (9) (10) (11) * Apriori算法描述（二） (候选集生成算法) 输入：(k-1)-频繁项目集输出：k-候选项目集 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) * Apriori算法简介（三） TID Itemset TID Itemset 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D 表1 样本数据库对上表中的事务数据库应用Apriori算法的执行过程(minsupport=40%即minsup_count=2) 生成生成得到同上,则有频繁项目集：最大频繁项目集： * 关联规则生成算法输入：频繁项目集；最小信任度输出：强关联规则 * 算法缺陷多次扫描事务数据库，需要很大的I/O负载对每次循环看k，候选集中的每个元素都必须通过扫描数据库一次. 可能产生庞大的候选集由产生k-候选集是指数级增长的.这样对时间和主存空间都是一种挑战. * 算法改进（一）基于分割(Partition)的思想首先将大容量的数据库从逻辑上分成几个互不相交的块，每个块应用掘算法（如Apriori)生成局部的频繁项目集，然后把这些局部的频繁项目集作为候选的全局频繁项目集，通过测试它们的支持度得到最终的全局频繁项目集. 定理：设数据集D被分割为D1,D2D3…,Dn,全局最小支持度为minsupport,对应的最小支持数为 minsup_