- 1
- 0
- 约8.47千字
- 约 6页
- 2017-12-26 发布于广东
- 举报
深度优先搜索挖掘频繁项目集
白石磊陈卫毛雪岷董卓敏
(中国科学技术大学自动化系230026)
摘要发现频繁项目集是多种数据挖掘应用中的关键问题。本文提出了一种快速挖掘频繁
项目集的算法FDFI(fastdiscoveryitemsets)。该算法采用深度优先搜索,通过
frequent
排序和有效的剪枝策略,以及映射搜索数据表,大大缩小了搜索空间和数据扫描量,
提高了算法的效率。
关键词 知识发现数据挖掘频繁项目集深度优先搜索映射数据表
随着数据库技术的发展和信息时代的来临,各行各业都积累了大量的数据,数据库中存
储的数据量急剧增大。在这些海量数据中隐藏着许多重要的信息和知识,可以很好地支持人
们进行预、决策。可是目前数据库系统所能做到的只是对数据库中的数均进行存取、查询和
简单的统计等操作,而不能对这些数据进行有效地分析、处理,从而造成“数据丰富、知识
贫乏”的状况。与此同时,人工智能领域的一个重要分枝——专家系统的研究和应用近年来
也取得了很大的发展,然而专家系统中也同样面临着知识获取的瓶颈。因此,为了满足人们
实际应用的需要,也由于数据库技术和机器学习技术的发展,数据库中的知识发现(Knowledge
in
DiscoveryDatabase,KDD),或称为数据挖掘(Data
Mining,DM),已成为当前数据库与人工智
能领域的一个热点研究课题。
数据库中的知识发现就是在数据库中提取隐含的、新颖的、潜在有用的知识[1】。关联规
则和序贯模式是KDD研究的重要方面。而发现频繁项目集则是挖掘关联规则【2】和序贯模式[3】
的关键技术和步骤。目前挖掘频繁项目集的典型算法是Apriori算法[2】或其变种。Apfiofi算法
采用自底向上宽度优先搜索,搜索空间巨大,而且须多次遍历数据库,当数据量巨大和频繁
集维数较高时,时空开销将变得难以忍受。计算项目集的支持度是发现频繁项目集中最耗时
的工作[4],缩小搜索空间和减少数据库扫描是降低开销的有效手段。因此本文提出了一种深
度优先搜索快速挖掘频繁项目集度算法FDFI(fastdiscoveryfrequentitemsets)。
l相关概念
(1)关联规则和频繁项目集
s,。
D是一组事务集(称之为事务数据库),D中的每个事务T是一组物品(项目),显然满足T
r。关联规则是如下形式的一种蕴
定义1:称事务T支持物品(项目)集X,如果XS
c cI,R
含:X一】,,其中X J,Y XAY=a。
949
定义2:称项目集X具有大小为s的支持度,如果D中有S个事务支持项目集X。记为
sup(X)。
itemsets),反之,则称为非频繁项目集(infrequentitemsets)。项目集中项目的数量叫做项目集的
维数或长度。 .
定义4:称关联规则x岭】,在事务数据库D中有大小为S的支持度,如果项目集xU】,
的支持度为S。
t定义5:称规则彳兮y在事务数据库D中有大小为C的可信度,如果D中支持项目集X
的事务中有c%的事务同时也支持项目集Y。
挖掘关联规则问题就是在给定的事务数据库D中产生所有满足用户给定的最小支持度
(min 最小可信度 )fnoc_.niar(l并)pus.。程过的则规联关的
有关项目集具有如下性质:
性质1:如果X是频繁项目集,则X的任何子集都是频繁项目集。
性质2:如果X是非频繁项目集,则X的任何超集都是非频繁项目集。
布尔型关联规则的发现过程可分为两个步骤:第一步,发现支持度大于给定的最小支持
度的频繁项目集:第二步,从频繁项目集中产生关联规则,即当可信度co刀厂≥minCO矽时,
规则成立。挖掘的性能主要由第一步决定。发现频繁项目集的过
您可能关注的文档
- 影響私立學校負債資金成本因素之實證研讨.pdf
- 深圳市社区卫生服务发展的战略思考与近期对策研究.pdf
- 影響投資人對銀行『個人財富管理』業務顧客忠誠度相關因素之研究—從信任關係矩陣切入研究.pdf
- 影音交互式网络独立学习平台设计以诗歌声情艺术教学为例研究.pdf
- 破译“降低诉讼费老百姓就能打得起官司”之神话——兼谈降低当事人诉讼成本的对策研究.pdf
- 征地补偿标准验算方法探讨研究.pdf
- 深圳市笋岗路快速公交BRT停靠站设置及其规模研讨.pdf
- 征地补偿和被征地农民基本生活保障制度的分析设计以泰州市征地补偿和被征地农民基本生活保障工作为例研究.pdf
- 征地、撤村建居与农村人际关系变迁以一个中国北方村落为例研究.pdf
- 深圳市天然气基准气类别的选择研究.pdf
原创力文档

文档评论(0)