深度优先搜索挖掘频繁项目集研究.pdfVIP

下载本文档

1
0
约8.47千字
约 6页
2017-12-26 发布于广东
举报

深度优先搜索挖掘频繁项目集研究.pdf

深度优先搜索挖掘频繁项目集白石磊陈卫毛雪岷董卓敏 (中国科学技术大学自动化系230026) 摘要发现频繁项目集是多种数据挖掘应用中的关键问题。本文提出了一种快速挖掘频繁项目集的算法FDFI(fastdiscoveryitemsets)。该算法采用深度优先搜索，通过 frequent 排序和有效的剪枝策略，以及映射搜索数据表，大大缩小了搜索空间和数据扫描量，提高了算法的效率。关键词知识发现数据挖掘频繁项目集深度优先搜索映射数据表随着数据库技术的发展和信息时代的来临，各行各业都积累了大量的数据，数据库中存储的数据量急剧增大。在这些海量数据中隐藏着许多重要的信息和知识，可以很好地支持人们进行预、决策。可是目前数据库系统所能做到的只是对数据库中的数均进行存取、查询和简单的统计等操作，而不能对这些数据进行有效地分析、处理，从而造成“数据丰富、知识贫乏”的状况。与此同时，人工智能领域的一个重要分枝——专家系统的研究和应用近年来也取得了很大的发展，然而专家系统中也同样面临着知识获取的瓶颈。因此，为了满足人们实际应用的需要，也由于数据库技术和机器学习技术的发展，数据库中的知识发现(Knowledge in DiscoveryDatabase，KDD)，或称为数据挖掘(Data Mining，DM)，已成为当前数据库与人工智能领域的一个热点研究课题。数据库中的知识发现就是在数据库中提取隐含的、新颖的、潜在有用的知识[1】。关联规则和序贯模式是KDD研究的重要方面。而发现频繁项目集则是挖掘关联规则【2】和序贯模式[3】的关键技术和步骤。目前挖掘频繁项目集的典型算法是Apriori算法[2】或其变种。Apfiofi算法采用自底向上宽度优先搜索，搜索空间巨大，而且须多次遍历数据库，当数据量巨大和频繁集维数较高时，时空开销将变得难以忍受。计算项目集的支持度是发现频繁项目集中最耗时的工作[4]，缩小搜索空间和减少数据库扫描是降低开销的有效手段。因此本文提出了一种深度优先搜索快速挖掘频繁项目集度算法FDFI(fastdiscoveryfrequentitemsets)。 l相关概念 (1)关联规则和频繁项目集 s，。 D是一组事务集(称之为事务数据库)，D中的每个事务T是一组物品(项目)，显然满足T r。关联规则是如下形式的一种蕴定义1：称事务T支持物品(项目)集X，如果XS c cI，R 含：X一】，，其中X J，Y XAY=a。 949 定义2：称项目集X具有大小为s的支持度，如果D中有S个事务支持项目集X。记为 sup(X)。 itemsets)，反之，则称为非频繁项目集(infrequentitemsets)。项目集中项目的数量叫做项目集的维数或长度。．定义4：称关联规则x岭】，在事务数据库D中有大小为S的支持度，如果项目集xU】，的支持度为S。 t定义5：称规则彳兮y在事务数据库D中有大小为C的可信度，如果D中支持项目集X 的事务中有c％的事务同时也支持项目集Y。挖掘关联规则问题就是在给定的事务数据库D中产生所有满足用户给定的最小支持度 (min 最小可信度 )fnoc_．niar(l并)pus．。程过的则规联关的有关项目集具有如下性质：性质1：如果X是频繁项目集，则X的任何子集都是频繁项目集。性质2：如果X是非频繁项目集，则X的任何超集都是非频繁项目集。布尔型关联规则的发现过程可分为两个步骤：第一步，发现支持度大于给定的最小支持度的频繁项目集：第二步，从频繁项目集中产生关联规则，即当可信度co刀厂≥minCO矽时，规则成立。挖掘的性能主要由第一步决定。发现频繁项目集的过

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

深度优先搜索挖掘频繁项目集研究.pdfVIP