基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns.docxVIP

下载本文档

8
0
约5.48万字
约 56页
2018-05-18 发布于上海
举报

基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns.docx

基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns

1 绪论随着计算机技术的不断发展，以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业得到广泛应用。激增的数据背后隐藏着许多重要的信息。但如此多的数据让人难以消化，无法从表面上看出其中所蕴涵的有用信息，导致了“数据爆炸但知识贫乏[1]”的现象。人们希望能够对海量数据进行更高层次的分析，找出其中的有用信息，以便更好的利用这些数据，为企业创造更多的利润。数据挖掘应运而生。1.1 本文的研究背景和意义计算机技术的快速发展，使计算机的处理和存储能力日益提高。同时，数据仓储技术被广泛应用于商业、IT 业、科研、行政、医疗、保险等领域。目前，全球为各行各业服务的数据库至少有几百万个。数据库不仅在数量上快速增长，而且在规模上也越来越大，数据库中存储的数据量急剧增大，在大量的数据背后隐藏着许多重要信息，人们迫切需要将这些数据转换成有用的信息和知识。如何才能不被信息的汪洋大海淹没，从中快速、高效的发现有用知识，成为一项非常艰巨的任务。目前的数据库系统虽然可以较好地实现数据的录入、查询和统计等功能，但是尚不支持对海量数据背后重要信息的挖掘。因此，面对“数据爆炸但知识贫乏”的挑战，数据挖掘技术应用而生，并且得到蓬勃发展。数据挖掘[1,2](Data Mining,简称 DM)指在没有先前假说做验证的情况下盲目搜索数据的过程。在计算机领域，数据挖掘一直没有统一的定义。广义上认为：数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它不但可以帮助人们从数据库特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息，而且可以帮助人们从不同程度上去分析它们，从而更有效地利用数据库或数据仓库中的数据。它不但可以描述历史数据的一般性质，还能对当前数据进行推断，预测未来发展趋势。数据挖掘的分类[1,3]方法很多，有基于挖掘对象的分类、基于挖掘任务的分类以及基于挖掘方法的分类等。因为数据挖掘的目的是从数据中发现模式，因此基于挖掘任务的分类方法是其中最常见的一种。按照挖掘任务可分为关联规则、分类、聚类、时间序列预测模型发现等。其中，关联规则是描述数据库中数据项之间存在潜在关系的规则，其主要工作是发现频繁模式；分类[4]是根据已知类别构造分类器，寻找数据间的分类模式，通常用于预测未来数据的归属类别；聚类[5]是根据数据在相似性方面的联系，将其划分成若干个对象类的过程；时间序列预测模型发现[1]则是根据历史数据及其发展规律，对未来发展趋势进行短期预测。当前研究较多也较为成熟的是关联规则挖掘。随着大量数据不断的收集和存储，越来越多的企业希望发现其庞大数据库中隐含的关联规则。例如，超市和连锁店通过分析顾客购买行为模式，研究购买某一商品对购买其它商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。此外，关联规则挖掘还广泛应用于工程、医疗保健、金融证劵分析、电信和保险业的错误校验等领域。关联规则[1,2]既能检验行业内长期形成的知识模式，又能发现隐藏的新规律。因此，快速、高效的从海量数据中发现关联规则是数据挖掘的一个重要方面。关联规则挖掘的重要任务是频繁模式挖掘。近年来，关于频繁模式挖掘问题，许多专家学者提出了大量的解决方案。然而由于频繁模式挖掘所特有的计算复杂度问题，频繁模式挖掘算法效率仍无法让人满意。因此业界提出了最大频繁模式、频繁闭合模式挖掘问题。最大频繁模式隐含了所有的频繁模式，所占用的存储空间远远小于完全集。但由于最大频繁模式并没有保存其子集的支持度信息，为了寻找其子集的支持度，需要进行一次额外的数据库扫描，这增加了系统开销。频繁闭合模式规模远小于频繁模式并且可以唯一确定频繁模式完全集以及它们的准确支持度。因此，对频繁闭合模式挖掘算法的研究成为数据挖掘的热点之一。另外，由于实际应用中往往涉及海量数据库，这样即使高性能的频繁闭合模式挖掘串行算法，在面对大规模或多维数据挖掘时，仍存在计算量大、可利用的存储空间有限等问题。随着网络技术与分布式数据库技术的迅速发展，分布式/并行挖掘技术已广泛应用于各个行业，从而使对分布式/并行频繁闭合模式挖掘算法的研究就成为必然。因此，本文分别提出了基于分布式的频繁闭合模式挖掘算法 PFCI_Miner 和 DSFC_Miner。1.2 关联规则研究现状关联规则最早是由 R.Agrawal 等人[3]于 1993 年提出的，目的是描述数据库中数据项之间存在的潜在联系。关联规则挖掘自提出以来，便受到国内外学者的高度关注。国际著名的学术会议和期刊如 VLDB、ICDE、SIGKDD、ACM SIGMOD 以及 IEEE Trans on

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns.docxVIP