- 8
- 0
- 约7.14万字
- 约 62页
- 2017-08-27 发布于安徽
- 举报
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
上整盘芏2地!堡亟±班至£生坐些盗塞
摘 要
新颖的、有潜在作用的、可信的、并能最终被人理解的模式的非平凡处理
过程。它适用于所有存在数据积累的领域。关联规则挖掘是数据挖掘的主
要模式之一,但是出于当今的数据库的量非常之大,在单机上进行关联规
则挖掘显得力不从心,随着机群计算机的出现,为进行并行关联规则挖掘
提供了可能.本文将研究并行关联规则挖掘算法,并提出一种无候选集生
成的并行关联规则挖掘算法,并将该并行关联规则挖掘算法应用于电梯历
史数据领域。
并行关联规则的挖掘分为二步:首先挖掘出所有全局频繁项集(根据
给定最小支持度);然后生成所有强关联规则(根据给定最小置信度)。已
有的并行挖掘算法都集中在对第~步问题的解决上,这些并行算法所采用
的都是基于Apriori思想,即各个处理机各自对本地的数据库进行寸j描,
并利用全局频繁项集Lk—l产生候选项集ck,接着计算各候选项的局部支持
数.在各处理机之间交换支持数得到各候选项的全局支持数,最终生成全
局频繁K项集Lk。这些算法存在的缺点是有大量的候选项生成。增加了通
讯量,同时也需要多次扫描数据库,增加了I/0消耗。本文提出了一种基
于频繁模式树的并行挖掘算法,它的思想是:首先每个处理机扫描本地数
据库并相互交换所有卜项集的支持数得到全局频繁卜项集F1ist,再根据
Fli
st将本地的数据库压缩成一棵频繁模式树:各处理机从各自的FPT中
得到每个频繁卜项的局部条件模式基,并通过交换在指定处理机上得到该
1一项的全局条件模式基;各处理机对其上的全局条件模式基构造条件频繁
模式树并挖掘出以该卜项为尾的所有频繁项集。浚算法的优点是无需生成
候选项集,这就避免了多次扫描数据库各候选项进行计数,减少了I/o消
耗;周时只通过交换各卜项的条件摸式基,相应地通讯量也大减少了。实
验也证明了浚算法的高效性。
此外,将该算法注册到基f机群汁算机的并行数据挖掘平台的算法库
中,并应用到电梯数据集,挖掘出了电梯维护数据之间的有价值的规则,
对经营者的分析和决策提供有益的帮助和指导。
本研究得到到国家自然科学基会项目f
基金项目(01JCl4022)资助。
关键字: 数据挖掘关联规则机群计算机频繁模式树
搪v贝
土盘点堂2壁Q!埋熊±垡缝生望些监窑
Abstract
in isthenontrivial
Data and Database
MiningKnowledgeDiscovery
of and useful,
processidentilyingextracting
and understandablecanbe inall
creditable
ultimately patterns,Itapplied
thataccumulatedmuchdata.Associationruleisoneof出emost
fields important
data because databseistremendous,itis
today’s
mimngproblems.But
on machinetomineassociationrules.Itis tomine withthe
single practicalparallelly
cluster’s
原创力文档

文档评论(0)