- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
并行关联规则挖掘综述1
张云泉(编译)
中科院软件所并行计算实验室,100080
摘要 本文在参考文献[16]的基础上,给出了并行关联规则挖掘算法(PARM)最新的研
究进展综述。相对于关联规则挖掘的重要性和最近几年该问题吸引的大量研究来说,这
是很必要的。
本文给出了关联规则挖掘的分类,其分类依据是数据库的存储格式、所使用的查找
和枚举技术、是否枚举所有或者最大的模式、扫描数据库的次数等。根据所使用的计算
平台 (分布或共享存储)、所发掘的并行类别 (任务或数据并行)和所使用的本地负载均
衡策略(动态或静态)的不同,本文清晰的给出了并行关联规则挖掘算法的设计空间。
本文分析和回顾了大量的并行算法并根据不同的技术进行了分组。研究表明,有几种方
法是占绝对优势的,而其它方法是对这些基本技术的优化。
本文的目的有两个,首先是作为对目前的并行关联规则挖掘算法感兴趣的研究者和
实现者的参考资料。其次是指出在该领域中面临的挑战和问题。
关键词 并行数据挖掘,关联规则,频集
1 引言
数据挖掘根据其目的的不同,可以分为两大类:一类是从在数据集合中找到变化最
大的数据集,即发现和解释特例;另一类,是理解数据集中的大多数数据的变化规律,
对例外的集不感兴趣。科学数据挖掘大部分属于第一类,即找到例外的集合,而商业数
据挖掘大部分属于第二类。对第一类应用,并行计算似乎是必要的,而对第二类来说,
问题尚不明朗,因为我们不能知道从大量数据中抽样能否回答大范围的问题。并行计算
被看作数据挖掘的潜在工具,但我们还不能完全确定并行计算是否代表数据挖掘的未来。
本为调研的关联规则挖掘属于第二类。
关联规则挖掘 (Association Rule Mining-ARM )已经成为数据挖掘的核心问题之一,
吸引了大量数据挖掘研究者和使用者的注意。ARM 是一种无向的或无监管的数据挖掘
技术,能够处理变长数据,生成清晰的可理解的结果。它有着简单优雅的问题描述,即
找出所有在数据库记录或事务中频繁出现的所有项目或者属性子集的集合,另外,抽取
出一个子集如何影响另外一个子集出现的规则。ARM 最早的应用是市场购货篮分析,
其中的项目代表商品,记录代表在大型超市或者仓储部门的一次销售。一个可能的规则
例子是:“90%购买商品A 的顾客也会购买商品B ”。ARM 的其他应用领域包括客户分类、
分类设计、商品摆放设计、电信警报预测等。
虽然ARM 的表述很简单,但却是一个计算和I/O 密集的计算问题。给定m 个项目,
可能有2m 子集是频繁子集。除非对特别小的m ,对这么大的空间进行穷尽搜索是不可能
的。而且数据库的纪录量也是巨大的。比如,典型的大型仓储超市每天会储存包含成千
上万项目的成百上千万条客户交易事务。像Walmart, Sears, UPS, FedEx 等公司,目前已
1 本工作得到中科院软件所创新培育项目“数据挖掘与网络安全并行问题研究” (CXK25628)
(2002.8-2004.8) 的资助。
1
经拥有了存储量为 TB 的数据仓库。处理所有的这些数据需要大量的I/O 磁盘操作。由
于数据不断在维数(项目数量)和事物数量上的增长,ARM 算法一个很必要的特点就
是其可扩展性,即处理超大量数据的能力。很明显的,串行算法对于大数据库的数据维
数、事物大小和运行性能来说,不能提供可扩展性。我们不得不求助于高性能并行计算
来填补这一需要。从两个方面来说,数据挖掘正是并行计算所需要的Killer 应用。首先,
分析数据中的变化的算法复杂性很高,需要只用并行计算机才能提供的计算能力;其次,
数据挖掘所涉及的数据量很大,而且增长很快,并行计算机的设计目标就是能够处理大
规模的数据。实际上,目前的一些数据挖掘问题已经达到了当前并行计算机处理的极限。
本文给出了针对不同并行平台提出的不同并行 ARM 算法的综述。由于在该领域的
研究非常丰富,给有兴趣的研究者提供最新的资料和提出目前尚未解决的问题就变的很
必要。这就是本文的两个主要目标。
2 问题定义与复杂性
关联规则挖掘可以如下表述:设I
您可能关注的文档
最近下载
- 装饰图案概述.ppt VIP
- 香港中學會考試題(甲部).doc VIP
- 德阳市城市道路更新技术导则(2022).pdf
- 2023年香港亚洲国际数学奥林匹克公开赛(AIMO)竞赛复赛数学试卷.doc VIP
- “双减”背景下家长的教育焦虑及消解路径.docx VIP
- 装饰图案第6章 装饰图案色彩.ppt VIP
- 海尔基于工业4.0智能制造工厂服务平台智能柔性生产线方案(224页).ppt VIP
- 装饰图案第8章 装饰图案与应用设计.ppt VIP
- 房屋市政工程生产安全重大事故隐患判定标准(2024版)危险性较大的分部分项工程专项施工方案严重缺陷清单解读.pdf VIP
- 装饰图案第5章 装饰图案的造型、构图及组织形式.ppt VIP
文档评论(0)