基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns.docxVIP

  • 8
  • 0
  • 约5.48万字
  • 约 56页
  • 2018-05-18 发布于上海
  • 举报

基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns.docx

基于分布式的频繁闭合模式挖掘算法分析-analysis of distributed algorithm for mining frequent closed patterns

1 绪论随着计算机技术的不断发展,以数据库、数据仓库等数据仓储技术为基础的信息系 统在各行各业得到广泛应用。激增的数据背后隐藏着许多重要的信息。但如此多的数据 让人难以消化,无法从表面上看出其中所蕴涵的有用信息,导致了“数据爆炸但知识贫 乏[1]”的现象。人们希望能够对海量数据进行更高层次的分析,找出其中的有用信息, 以便更好的利用这些数据,为企业创造更多的利润。数据挖掘应运而生。1.1 本文的研究背景和意义计算机技术的快速发展,使计算机的处理和存储能力日益提高。同时,数据仓储技 术被广泛应用于商业、IT 业、科研、行政、医疗、保险等领域。目前,全球为各行各业 服务的数据库至少有几百万个。数据库不仅在数量上快速增长,而且在规模上也越来越 大,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要信息,人们迫 切需要将这些数据转换成有用的信息和知识。如何才能不被信息的汪洋大海淹没,从中 快速、高效的发现有用知识,成为一项非常艰巨的任务。目前的数据库系统虽然可以较 好地实现数据的录入、查询和统计等功能,但是尚不支持对海量数据背后重要信息的挖 掘。因此,面对“数据爆炸但知识贫乏”的挑战,数据挖掘技术应用而生,并且得到蓬勃 发展。数据挖掘[1,2](Data Mining,简称 DM)指在没有先前假说做验证的情况下盲目搜索数 据的过程。在计算机领域,数据挖掘一直没有统一的定义。广义上认为:数据挖掘就是 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。它不但可以帮助人们从数据 库特别是数据仓库的相关数据中提取出感兴趣的知识、规律或更高层次的信息,而且可 以帮助人们从不同程度上去分析它们,从而更有效地利用数据库或数据仓库中的数据。 它不但可以描述历史数据的一般性质,还能对当前数据进行推断,预测未来发展趋势。数据挖掘的分类[1,3]方法很多,有基于挖掘对象的分类、基于挖掘任务的分类以及基 于挖掘方法的分类等。因为数据挖掘的目的是从数据中发现模式,因此基于挖掘任务的 分类方法是其中最常见的一种。按照挖掘任务可分为关联规则、分类、聚类、时间序列 预测模型发现等。其中,关联规则是描述数据库中数据项之间存在潜在关系的规则,其 主要工作是发现频繁模式;分类[4]是根据已知类别构造分类器,寻找数据间的分类模式, 通常用于预测未来数据的归属类别;聚类[5]是根据数据在相似性方面的联系,将其划分 成若干个对象类的过程;时间序列预测模型发现[1]则是根据历史数据及其发展规律,对 未来发展趋势进行短期预测。当前研究较多也较为成熟的是关联规则挖掘。随着大量数据不断的收集和存储,越来越多的企业希望发现其庞大数据库中隐含的关联规则。例如,超市和连锁店通过分析 顾客购买行为模式,研究购买某一商品对购买其它商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。此外,关联规则挖掘还广泛应用于工程、医疗保健、金融证劵分析、电信和保险业的错误校验等领域。 关联规则[1,2]既能检验行业内长期形成的知识模式,又能发现隐藏的新规律。因此,快速、高效的从海量数据中发现关联规则是数据挖掘的一个重要方面。关联规则挖掘的重要任务是频繁模式挖掘。近年来,关于频繁模式挖掘问题,许多专家学者提出了大量 的解决方案。然而由于频繁模式挖掘所特有的计算复杂度问题,频繁模式挖掘算法效率 仍无法让人满意。因此业界提出了最大频繁模式、频繁闭合模式挖掘问题。最大频繁模式隐含了所有的频繁模式,所占用的存储空间远远小于完全集。但由于最大频繁模式并 没有保存其子集的支持度信息,为了寻找其子集的支持度,需要进行一次额外的数据库扫描,这增加了系统开销。频繁闭合模式规模远小于频繁模式并且可以唯一确定频繁模 式完全集以及它们的准确支持度。因此,对频繁闭合模式挖掘算法的研究成为数据挖掘 的热点之一。另外,由于实际应用中往往涉及海量数据库,这样即使高性能的频繁闭合模式挖掘 串行算法,在面对大规模或多维数据挖掘时,仍存在计算量大、可利用的存储空间有限等问题。随着网络技术与分布式数据库技术的迅速发展,分布式/并行挖掘技术已广泛应 用于各个行业,从而使对分布式/并行频繁闭合模式挖掘算法的研究就成为必然。因此,本文分别提出了基于分布式的频繁闭合模式挖掘算法 PFCI_Miner 和 DSFC_Miner。1.2 关联规则研究现状关联规则最早是由 R.Agrawal 等人[3]于 1993 年提出的,目的是描述数据库中数据项 之间存在的潜在联系。关联规则挖掘自提出以来,便受到国内外学者的高度关注。国际 著名的学术会议和期刊如 VLDB、ICDE、SIGKDD、ACM SIGMOD 以及 IEEE Trans on

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档