关联规则中Apriori算法的研究与改进.docVIP

  • 4
  • 0
  • 约5.76千字
  • 约 3页
  • 2019-10-22 发布于江西
  • 举报
执关联规则中 Apriori 算法的研究与改进宋小小 执 关联规则中 Apriori 算法的 研究与改进 宋小小 陈晓辉 刘冲 桂林理工大学 广西 541004 摘要:关联规则反映了大量数据中项集间的相互依存性和关联性。Apriori 算法是关联规则挖掘中的经典算法,目前已 有很多的改进版本,但大多存在多次扫描数据库,项集生成瓶颈和模式匹配频繁的问题,算法效率比较低。本文深入的分析 研究关联规则 Apriori 算法,改进候选频繁项目集的连接和剪枝策略,改进对事务的处理方式,减少模式匹配所需的时间开 销,并给出了改进算法。 关键词:数据挖掘;关联规则;Apriori;频繁项集 0 引言 数据挖掘是一门新兴起的交叉学科,主要研究事务数据 库、关系数据库中的数据项之间潜在有用的新颖的规律。它 的主要方法包括:分类、关联规则、聚类、特征、回归分析、 变化和偏差分析等。关联规则挖掘就是从海量的数据中寻找 数据项间的关联关系,它是数据挖掘领域中研究的热点问 题。关联规则表示数据库中一组对象之间具有某种关联关系 的规则,其主要挖掘对象是事务数据库。这种数据库大量的 应用在零售业,而条形码技术的发展使得数据的收集变得更 加方便、更加完整。关联规则就是在这些交易项目中去寻找 某种关联关系。1993 年,Agrawal 等人首先提出了挖掘顾客 交易项目中项集间的关联规则问题,此后诸多的研究人员对 关联规则挖掘问题进行了大量的研究与改进。 1 Apriori 算法 1.1 算法简介 Apriori 算法是 1993 年由 Agrawal 等人提出的一个经典 的挖掘关联规则算法,它通过对事务数据库的多趟扫描来发 现所有的频繁项目集。 该算法采用“逐层搜索”的迭代方法,利用向下封闭 特性,由 k–频繁项目集生成(k+1)–频繁项目集。第一趟扫 描数据库计算出 1–频繁项目集集合(记为:L 1 );接着,反复 行下面的两个步骤计算 k-频繁项目集,直到生成 k-频繁项目 集的集合(记为:L k )为空: (1) 连接:(k–1)–频繁项目集集合进行自连接运算,生成 候选 k-项目集集合。 (2) 剪枝:上一步生成的候选 k–项目集集合是 k–频繁项 目集集合的超集。通过扫描数据库计算候选 k–项目集集合中 每个候选项目集的支持度,并与给定的最小支持度进行比 较,较大的就是 k–频繁项目集。 1.2 算法分析 经典的 Apriori 挖掘算法在执行“连接,剪枝”步骤中, 需要多次扫描数据库并生成大量的候选项目集。当数据库太 大或者挖掘层次太深时, 算法耗时太多甚至无法完成。在剪 枝步,由大量的候选项目集而造成的频繁模式匹配问题,这 些都严重影响了 Apriori 算法的效率。 1.3 算法的基本原理 性质 1 K 项数据项目集是频繁项目集的必要条件是它 的所有 k-1 项子集均是频繁项目集。 性质 2 K 频繁项目集的所有 K–1 维非空子集均是频繁 项目集。 定理 1 若 K 维数据项目集 X = { i 1 , i 2 ,…,i k }中, 存在一个 j ? X,使得|L k ? 1 (j)| k – 1,则 X 不是频繁项目集。 , 作者简介:宋小小(1987-),男,桂林理工大学信息科学与工程学院硕士研究生,研究方向:数据库,数 据挖掘。陈晓辉(1963-),男,副教授, 研究方向:网络数据库,人工智能,数据挖掘。刘冲(1986-),男 硕士研究生,研究方向:数据库,数据挖掘。 其中,|L k ? 1 (j)| 其中,|L k ? 1 (j)|表示(K–1)维频繁项目集的集合 L k ? 1 中 包含 j 的个数。 证明 假设 X 是 K 维频繁项目集,根据性质 1,X 的 k 个(k–1)项目子集都在 L k ? 1 中,其中每一个项目 p ? L 均出现 k–1 次,故?p ? L,均有| L k ? 1 (p)| ? k–1,这与条件矛盾,故 X 不是频繁项目集。 推论 1 如果 k–1 维频繁项集集合 L k ? 1 中包含单个项目 i 的个数小于 k–1,则 i 不可能包含在频繁 k–项集中。 2 改进的 Apriori 算法 Apriori 算法中对数据库的处理,目前普遍采用的是水平 数据库结构。本文借鉴文献的思想,将水平结构变换为垂直 对应关系。经过这样变换,很容易计算 1-项目集的支持度, 同时很容易计算候选项目集的支持度,并且只在计算 1–项目 集时需要对整个数据库进行访问。 改进的 Apriori 算法思路如下: (1) 首先扫描整个数据库,记录支持每个项目的事务 ID 号。经过统计后,计算出每个项目的支持度,并与最小支持 度进行比较,进而得出 1–项目集。 (2) 由

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档