网站大量收购独家精品文档,联系QQ:2885784924

Apriori算法分析.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* Apriori算法简介 尤全增 ultimateyou@ 概要 技术背景 1 算法描述 2 算法缺陷 3 算法优化 4 * 背景 关联规则是Agrawal等人1993年首次提出来的,最初关联规则挖掘问题是在分析零售业事务数据库时提出来的,目的是为了发现交易数据库中不同商品之间的联系规则. * 关联规则描述 关联规则形式: 通常表示当项目 产生时,在同一个事务集中也经常产生项目 。 例子: * 算法描述(关联规则基本概念) 项目集合 事务数据库 唯一标识TID, 支持度 设 ,则 support( )= 频繁项目集 最大频繁项目集 (Maximum Large Itemsets) * 算法描述(关联规则基本概念介绍) 信任度(Confidence) 关联规则 定义如下: 其中, D在I上满足最小支持度和最小信任度(Minconfidence)的关联规则称为强关联规则. 关联规则挖掘问题就是通过用户指定Minsupport和Minconfidence来寻找强关联规则的过程. * 两个子问题 发现频繁项目集 通过用户指定的最小支持度,寻找所有频繁项目集,一般的只关心最大频繁项目集.发现频繁项目集是形成关联规则的基础. 生成关联规则 通过用户指定的最小可信度,寻找Confidence不小于Minconfidence的关联规则. * 项目集空间理论 定理1 如果项目集X是频繁项目集,那么它的所有非空子集都是频繁项目集. 定理2 如果项目集X是非频繁项目集,那么它的所有超集都是非频繁项目集. 定理3 设项目集X,X’是项目集X的一个子集,如果规则 是强规则,则规则 一定是强规则. * Apriori算法描述(一) Apriori(发现频繁项目集) 输入:数据集D;最小支持数Minsupport 输出:频繁项目集L (1) (2) (3) 是k个元素的候选集 (4) (5) 是所有包含在t里面的候选集 (6) (7) (8) (9) (10) (11) * Apriori算法描述(二) (候选集生成算法) 输入:(k-1)-频繁项目集 输出:k-候选项目集 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) * Apriori算法简介(三) TID Itemset TID Itemset 1 A,B,C,D 2 B,C,E 3 A,B,C,E 4 B,D,E 5 A,B,C,D 表1 样本数据库 对上表中的事务数据库应用Apriori算法的执行过程(minsupport=40%即minsup_count=2) 生成 生成 得到 同上,则有 频繁项目集: 最大频繁项目集: * 关联规则生成算法 输入:频繁项目集;最小信任度 输出:强关联规则 * 算法缺陷 多次扫描事务数据库,需要很大的I/O负载 对每次循环看k,候选集 中的每个元素都必须通过扫描数据库一次. 可能产生庞大的候选集 由 产生k-候选集 是指数级增长的.这样对时间和主存空间都是一种挑战. * 算法改进(一) 基于分割(Partition)的思想 首先将大容量的数据库从逻辑上分成几个互不相交的块,每个块应用掘算法(如Apriori)生成局部的频繁项目集,然后把这些局部的频繁项目集作为候选的全局频繁项目集,通过测试它们的支持度得到最终的全局频繁项目集. 定理:设数据集D被分割为D1,D2D3…,Dn,全局最小支持度为minsupport,对应的最小支持数为 minsup_

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档