Apriori改进算法讲解和实现.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Apriori算法的改进 郭金荣 历史 关联规则挖掘问题首先是由R. Agrawal 等于1993 年提出,其后许多的研究人员对该问题进行了广泛的研究,主要集中在改进关联规则挖掘算法以提高挖掘的效率等和推广关联规则挖掘应用两个方面。 至今,最经典的关联规则挖掘算法仍是由R. Agrawal 等提出的Apriori 算法。 主要思想 算法的主要思想是首先寻找给定大数据集中的频繁项集,然后通过频繁项集生成强关联规则。寻找频繁项集步骤的核心思想是用前一次扫描数据库的结果产生本次扫描的候选项目集,从而提高搜索的效率。 频繁项集和强关联规则的概念是通过支持度和可信度两个指标来确定的。满足支持度要求的项集被称为频繁项集,同时又满足可信度要求的规则被称为强关联规则。 定义和性质 关联规则的有关定义和性质 1) 关联规则的有关定义: 定义1 关联规则挖掘的事务数据库记为TDB,TDB = {T1,T2,…, Tk}, Tk = {i1,i2,…, ip}, Tk 称为事务,ip 称为项目。 定义2 设I = { i1,i2,…, im }是TDB 中全体项目组成的集合。每一个事务T 是I 中一组项目的集合,即TAI, 每个T 有一个唯一的标识符TID。 定义3 设项目集X 是I 中项目的集合,如果X 中有k 个项目,那么称X 的长度为k,记为k 项目集。 定义4 如果项目集XAT,则称事务T 满足项目集X,项目集X在事务数据库TDB 中的支持度,记为Support (X),即事务数据库TDB 中满足项目集X的事务数占总事务数的比例。 定义和性质 定义5 如果项目集X在事务数据库TDB 中的支持度不小于用户或专家给定的最小支持度阈值,那么称项目集X为频繁项目集,反之称为非频繁项目集。 定义6 一条关联规则就是形如X?Y的蕴涵式,其中X ? I, Y ? I, X ∩Y = Φ。X称为规则的前件, Y称为规则的后件。关联规则X? Y成立的条件是满足: 1) 支持度s ,即事务数据库TDB 中至少s %个事务包含X U Y; 2) 置信度c ,c = Support (X∪Y) / Support (X),即事务数据库TDB 包含X 的事务中至少有c %的事务同时也包含Y。关联规则挖掘可以分解为下列两个子问题[22]: 找出所有频繁项目集,这些项目集在TDB 中的支持度不小于最 小支持度min- sup; b) 由频繁项目集产生强关联规则,这些规则必须满足最小置信度min-conf 。 目前所有的关联规则挖掘算法都是针对第一个问题提出的,其中以算法Apriori 为代表。 定义和性质 算法的主要思想是首先寻找给定大数据集中的频繁项集,然后通过频繁项集生成强关联规则。寻找频繁项集步骤的核心思想是用前一次扫描数据库的结果产生本次扫描的候选项目集,从而提高搜索的效率。 频繁项集和强关联规则的概念是通过支持度和可信度两个指标来确定的。满足支持度要求的项集被称为频繁项集,同时又满足可信度要求的规则被称为强关联规则。 定义和性质 根据上述定义,可以这样描述Apriori 算法:Apriori 算法使用逐层搜索的迭代方法来产生频繁项集,设有频繁k-项集L k,通过Galois连接产生候选k + 1 项集Ck+1,再通过扫描数据集产生频繁k + 1 项集L k+1,最后由产生的频繁项目集产生关联规则。 性质1 :(Apriori 性质)频繁项目集的所有非空子集都必须也是频繁的。 证明(用反证法) :略。 推论1 :一个非频繁项目集的任一超集必定也是非频繁的。 证明:根据定义若有k-1 项集Ik -1 ,不满足最小支持度阈值min- sup ,即P( Ik-1) min-sup ,则称Ik-1 为非频繁的。若将任意一项(集) A 添加到Ik - 1 中,则必有P( Ik - 1∪ A) P( Ik - 1) min- sup,即Ik - 1 的任一超集( Ik - 1 ∪A) 是非频繁的。得证。 定义和性质 推论2:若一个候选k - 项集的任一k - 1 项子集不在L k - 1 中,则该侯选k 项集是非频繁的。 证明:略。 性质2 :若某交易记录T 不支持频繁k - 1 项集L k - 1中的每一元素,则T 必不支持Ck 中的任一元素。 证明:设频繁k - 1 项集Ik - 1 L k - 1, 则必有 ? Ik – 1 ?T;对于? X ∈Ck,则必有一k-1项集k - 1? X,则有X?T 。得证。 推论3 :若某记录T 不包含候选项集Ck - 1 中的任一元素,也必不包含Ck中的任一元素。 证明:略。 Apriori算法的基本思想 Apriori算法的基本思想是先找出所有频繁1- 项集, 这些项集组成L1, 然后由

文档评论(0)

文档分享 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档