深度优先搜索挖掘频繁项目集研究.pdfVIP

  • 1
  • 0
  • 约8.47千字
  • 约 6页
  • 2017-12-26 发布于广东
  • 举报
深度优先搜索挖掘频繁项目集 白石磊陈卫毛雪岷董卓敏 (中国科学技术大学自动化系230026) 摘要发现频繁项目集是多种数据挖掘应用中的关键问题。本文提出了一种快速挖掘频繁 项目集的算法FDFI(fastdiscoveryitemsets)。该算法采用深度优先搜索,通过 frequent 排序和有效的剪枝策略,以及映射搜索数据表,大大缩小了搜索空间和数据扫描量, 提高了算法的效率。 关键词 知识发现数据挖掘频繁项目集深度优先搜索映射数据表 随着数据库技术的发展和信息时代的来临,各行各业都积累了大量的数据,数据库中存 储的数据量急剧增大。在这些海量数据中隐藏着许多重要的信息和知识,可以很好地支持人 们进行预、决策。可是目前数据库系统所能做到的只是对数据库中的数均进行存取、查询和 简单的统计等操作,而不能对这些数据进行有效地分析、处理,从而造成“数据丰富、知识 贫乏”的状况。与此同时,人工智能领域的一个重要分枝——专家系统的研究和应用近年来 也取得了很大的发展,然而专家系统中也同样面临着知识获取的瓶颈。因此,为了满足人们 实际应用的需要,也由于数据库技术和机器学习技术的发展,数据库中的知识发现(Knowledge in DiscoveryDatabase,KDD),或称为数据挖掘(Data Mining,DM),已成为当前数据库与人工智 能领域的一个热点研究课题。 数据库中的知识发现就是在数据库中提取隐含的、新颖的、潜在有用的知识[1】。关联规 则和序贯模式是KDD研究的重要方面。而发现频繁项目集则是挖掘关联规则【2】和序贯模式[3】 的关键技术和步骤。目前挖掘频繁项目集的典型算法是Apriori算法[2】或其变种。Apfiofi算法 采用自底向上宽度优先搜索,搜索空间巨大,而且须多次遍历数据库,当数据量巨大和频繁 集维数较高时,时空开销将变得难以忍受。计算项目集的支持度是发现频繁项目集中最耗时 的工作[4],缩小搜索空间和减少数据库扫描是降低开销的有效手段。因此本文提出了一种深 度优先搜索快速挖掘频繁项目集度算法FDFI(fastdiscoveryfrequentitemsets)。 l相关概念 (1)关联规则和频繁项目集 s,。 D是一组事务集(称之为事务数据库),D中的每个事务T是一组物品(项目),显然满足T r。关联规则是如下形式的一种蕴 定义1:称事务T支持物品(项目)集X,如果XS c cI,R 含:X一】,,其中X J,Y XAY=a。 949 定义2:称项目集X具有大小为s的支持度,如果D中有S个事务支持项目集X。记为 sup(X)。 itemsets),反之,则称为非频繁项目集(infrequentitemsets)。项目集中项目的数量叫做项目集的 维数或长度。 . 定义4:称关联规则x岭】,在事务数据库D中有大小为S的支持度,如果项目集xU】, 的支持度为S。 t定义5:称规则彳兮y在事务数据库D中有大小为C的可信度,如果D中支持项目集X 的事务中有c%的事务同时也支持项目集Y。 挖掘关联规则问题就是在给定的事务数据库D中产生所有满足用户给定的最小支持度 (min 最小可信度 )fnoc_.niar(l并)pus.。程过的则规联关的 有关项目集具有如下性质: 性质1:如果X是频繁项目集,则X的任何子集都是频繁项目集。 性质2:如果X是非频繁项目集,则X的任何超集都是非频繁项目集。 布尔型关联规则的发现过程可分为两个步骤:第一步,发现支持度大于给定的最小支持 度的频繁项目集:第二步,从频繁项目集中产生关联规则,即当可信度co刀厂≥minCO矽时, 规则成立。挖掘的性能主要由第一步决定。发现频繁项目集的过

文档评论(0)

1亿VIP精品文档

相关文档