关联规则挖掘算法综述.docxVIP

  • 3
  • 0
  • 约8.95千字
  • 约 8页
  • 2023-12-02 发布于广东
  • 举报
关联规则挖掘算法综述 1 对关联规则的研究 挖掘是指从大型数据库或数据仓库中提取隐藏、未知和具有潜在价值的知识和规则的方法。它是人工智能和数据库发展相结合的产物,是国际上数据库和信息决策系统最前沿的研究方向之一。数据挖掘主要的算法有分类模式、关联规则、决策树、序列模式、聚类模式分析、神经网络算法等等。关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段,因此对关联规则的研究具有重要的理论价值和现实意义。 R. Agrawal 等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。此后人们对关联规则的挖掘问题进行了大量研究,包括对Apriori算法优化[2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19]、多层次关联规则算法、多值属性关联规则算法、其他关联规则算法[23,24,25,26,27,28,29,30,31,32,33]等,以提高算法挖掘规则的效率。 2 关联规则挖掘 设I= {i1,i2,…,im} 是m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即T?I,T有一个唯一的标志符TID。若项集X?I且X?T,则事务集T包含项集X。一条关联规则就是形如X?Y的蕴涵式,其中X?I,Y?I,X∩Y=?。关联规则X?Y成立的条件:a. 它具有支持度s,即事务数据库D中至少有s% 的事务包含X∪Y。b. 它具有置信度c,即在事务数据库D中包含X的事务至少有c%同时也包含Y。 关联规则挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度minsup和最小置信度minconf的关联规则。关联规则挖掘问题可以分解为以下2个子问题。 1 x显示所有处理数据的支持 (X)不小于用户给定的最小支持度minsup, 则称X为强项集 (large itemset)。 2 生成算法的关联规则 对于每个强项集A,若B?A,B≠?,且support (A)/support (B)≥minconf, 则有关联规则B?(A-B)。 第2个子问题比较容易,其生成算法可参考文献。目前大多数研究集中在第1个子问题上。 3 联规则算法的发展 R. Agrawal等提出了关联规则挖掘问题以后,一批有效的挖掘关联规则的算法在过去几年中得到了长足的发展。到目前为止,其主要研究方向有:基于规则中涉及到的数据维数的挖掘算法,基于规则中数据的抽象层次的挖掘算法,基于规则中处理变量类别的挖掘算法,其他关联规则算法等。 3.1 多维关联规则 按照关联规则中涉及到的变量数目可以把关联规则分为单维关联规则和多维关联规则。单维关联规则只涉及数据的一个维度(即一个变量);而多维关联规则要处理多维数据,涉及多个变量。 3.1.1 单维连接规则 1 增加组合项的增加 R. Agrawal等提出的AIS, Apriori算法。 在算法AIS中,候选强项集是在扫描数据库的过程中产生,即在对数据库进行第k次扫描时,候选强项集(其中每一个元素的元素个数不一定是k个,可以大于k)是由第k-1次扫描所产生的边界集(frontier set)通过增加当前事务中的项得到,同时计算候选强项集中的元素支持数,直到某一次扫描所产生的边界集为空时停止运算,第k次扫描所产生的边界要大于本次扫描生成的强项集,该算法的缺点在于生成的候选强项集太大。 算法 Apriori 利用“在给定的事务数据库D中,任意强项集的子集都是强项集;任意弱项集的超集都是弱项集”这一原理对事务数据库进行多次扫描,第一次扫描得出大1-项集L1,第k(k1)次扫描前先利用第k-1次扫描的结果(即大k-1项集Lk-1)和函数 Apriori-gen产生候选大k-项集Ck,然后在扫描过程中确定Ck中每个元素的支持数,最后在每次扫描结束时计算出大k-项集Lk, 算法在当候选大k-项集Ck为空时结束。该算法所产生的候选强项集比算法AIS小得多,提高了算法效率。 2 基于模型的改进 J. S. Park 等提出的DHP算法, 是利用哈西(Hashing)技术有效地改进了候选强项集的生成过程, 产生了比前述算法更小的候选强项集(对大 2-候选集尤为明显),同时也缩减了事务数据库的大小,减小了I/O操作时间,其效率比算法Apriori有明显提高。 3 基于数据扭曲的挖掘算法 虽然Apriori算法自身已经进行了一定的优化,但是在实际的应用中,还是存在不令人满意的地方,于是人们相继提出了一些优化的方法。 a. 基于划分的方法 Savasere等设计了一个基于划分(partition)的算法。该

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档