并行关联规则挖掘算法与研究及其应用.pdfVIP

下载本文档

8
0
约7.14万字
约 62页
2017-08-27 发布于安徽
举报

并行关联规则挖掘算法与研究及其应用.pdf

优秀硕士毕业论文，完美PDF格式，可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考！！！

上整盘芏2地!堡亟±班至￡生坐些盗塞摘要新颖的、有潜在作用的、可信的、并能最终被人理解的模式的非平凡处理过程。它适用于所有存在数据积累的领域。关联规则挖掘是数据挖掘的主要模式之一，但是出于当今的数据库的量非常之大，在单机上进行关联规则挖掘显得力不从心，随着机群计算机的出现，为进行并行关联规则挖掘提供了可能．本文将研究并行关联规则挖掘算法，并提出一种无候选集生成的并行关联规则挖掘算法，并将该并行关联规则挖掘算法应用于电梯历史数据领域。并行关联规则的挖掘分为二步：首先挖掘出所有全局频繁项集(根据给定最小支持度)；然后生成所有强关联规则(根据给定最小置信度)。已有的并行挖掘算法都集中在对第～步问题的解决上，这些并行算法所采用的都是基于Apriori思想，即各个处理机各自对本地的数据库进行寸j描，并利用全局频繁项集Lk—l产生候选项集ck，接着计算各候选项的局部支持数．在各处理机之间交换支持数得到各候选项的全局支持数，最终生成全局频繁K项集Lk。这些算法存在的缺点是有大量的候选项生成。增加了通讯量，同时也需要多次扫描数据库，增加了I／0消耗。本文提出了一种基于频繁模式树的并行挖掘算法，它的思想是：首先每个处理机扫描本地数据库并相互交换所有卜项集的支持数得到全局频繁卜项集F1ist，再根据 Fli st将本地的数据库压缩成一棵频繁模式树：各处理机从各自的FPT中得到每个频繁卜项的局部条件模式基，并通过交换在指定处理机上得到该 1一项的全局条件模式基；各处理机对其上的全局条件模式基构造条件频繁模式树并挖掘出以该卜项为尾的所有频繁项集。浚算法的优点是无需生成候选项集，这就避免了多次扫描数据库各候选项进行计数，减少了I／o消耗；周时只通过交换各卜项的条件摸式基，相应地通讯量也大减少了。实验也证明了浚算法的高效性。此外，将该算法注册到基f机群汁算机的并行数据挖掘平台的算法库中，并应用到电梯数据集，挖掘出了电梯维护数据之间的有价值的规则，对经营者的分析和决策提供有益的帮助和指导。本研究得到到国家自然科学基会项目f 基金项目(01JCl4022)资助。关键字：数据挖掘关联规则机群计算机频繁模式树搪v贝土盘点堂2壁Q!埋熊±垡缝生望些监窑 Abstract in isthenontrivial Data and Database MiningKnowledgeDiscovery of and useful， processidentilyingextracting and understandablecanbe inall creditable ultimately patterns，Itapplied thataccumulatedmuchdata．Associationruleisoneof出emost fields important data because databseistremendous，itis today’s mimngproblems．But on machinetomineassociationrules．Itis tomine withthe single practicalparallelly cluster’s

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

并行关联规则挖掘算法与研究及其应用.pdfVIP