基于概念格的关联规则挖掘-系统工程专业论文.docxVIP

  • 2
  • 0
  • 约9.81万字
  • 约 118页
  • 2019-02-20 发布于上海
  • 举报

基于概念格的关联规则挖掘-系统工程专业论文.docx

⑧ ⑧ 硕士学位论文 MASIER’S1IIESi, 摘 要 信息时代,数据库积累了海量数据,为从海量数据中发现有用信息,知识 发现成为目前紧迫的研究方向。关联规则挖掘是知识发现中应用最广泛,研究 最多的任务之一。 挖掘关联规则的首要任务则是找到频繁项目集。目前找出频繁项目集的很 多算法主要可以分为如下三类:一、以Aprori算法为代表的层次算法,如Mannila 的算法,Partition算法,DIC算法。这类算法的主要思想是直接对子集格进行 修剪,从尺寸为l的项目集开始,逐层向上对数据库进行遍历,直到找到最大 频繁项目集为止,它是目前应用最多的算法,但是对大密度和高关联度的数据 库进行采掘时,运行时间将以指数倍增加,运行效率不高,效果不好;二、通 过找出最大频繁项目集的方法来得到频繁项目集的算法,如Pincer-Search算 法.MaxClique算法和MaxMiner算法。这种算法在一定程度上节省了运行时间 和空间消耗,但是由于它的理论基础本身存在的缺陷,所以在生成关联规则时, 存在信息丢失的情况:三通过提取频繁封闭项目集来提取频繁项目集的算法, 如基于概念格(Galoris格)和J下则概念分析FCA的概念格挖掘算法。这类算 法的主要思想是先找到封闭的频繁项目集,然后从中得到全部的频繁项目集。 由于将发现频繁项目集的问题转化成为发现封闭概念的问题,该算法减少了空 问和时间消耗,尤其是在大密度高关联度的数据库情况下,因为封闭概念的数 目大大少于所有频繁项目集的数目,该算法的效果明显优于Apriori算法。同 时又能够在没有丢失信息的情况下将关联规则无冗余的挖掘出来。 本文通过对几个基于概念格的封闭频繁项目集挖掘算法的时间复杂度的 分析,总结出决定此类算法运行效率的因素,即数据库密度和关联度。在数据库 关联度小的时候,由于封闭频繁项目集的数目和频繁项目集总数相差不大,使 ⑧篙姜慧。用概念格进行关联规则挖掘的效果反而不比Apriori类算法更好,某些情况甚 ⑧篙姜慧。 用概念格进行关联规则挖掘的效果反而不比Apriori类算法更好,某些情况甚 至更差。据此提出了一种基于数据库关联度的判断选择算法RelationDesider. 能够在对数据库进行关联规则发现之前,通过对数据库的一次先验性遍历,得到 数据关联度情况,并根据该情况来选择合适的算法,当数据库关联度高于域值 时,采用基于概念格的关联规则挖掘算法,当关联度低于该域值时,采用 Apriori算法。最后,本文介绍了基于概念格的关联规则提取,并主要比较了 基于概念格的关联规则提取和一般方法提取关联规则的区别。 关键词:数据库KDD数据采掘关联规则概念格 n AbstractIn Abstract In this information age,databases are piling up huge volume data.For getting useful information from this“data sea’,knowledge discovery in database(KDD) emerges as the most hot research field.The association rule·mining problem is one ofthe most studied and the most popular KDD tasks. The chief task of association rules mining is tO find the frequent itemsets.The algorithms for finding frequent itemsets can be sort as three groups:1.Levelwise algorithms.Apriori algorithm is a most typical algorithm.Other this kind of algorithms is Marmila,Partion,DIC,and SO on.The main idea of this kind of algorithms is to prune the sub-itemsets lattice.It is started from the 1-size itemsets, passing the database level by level,and stopped when the largest frequent itemsets were found.It is a most popular method to find frequent itemsets.However’the perform t

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档