- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于矩阵的最大频繁项目集挖掘算法研究
摘要:在分析了有关频繁序列模式挖掘算法的基础上,提出了一种基于内部索引矩阵的FIBOIM算法,该算法充分利用先前挖掘过程中所产生的信息来降低本次挖掘过程中的时间开销。FIBOIM算法基本思想:通过扫描事务数据库一遍,构造出基于内部索引的矩阵IM;在分析了基于候选模式生成项目集的一些传统算法的基础上,集合IM矩阵的特点,改进了相关候选项目集生成算法,提高了频繁项目集的生成效率。实验证明了FIBOIM算法的正确性和有效性。
关键词:数据挖掘;频繁项目集;关联规则;索引;矩阵
中图分类号:TP301文献标识码:A文章编号:1009-3044(2011)29-7234-03
An Algorithm for Mining the Most Frequent Itemsets Based on Matrix
LIU Jie1, GE Xiao-bin1, YAO Jun2
(1. Department of Information, Tongling Vocational College, Tongling 244000, China; 2.Department of Mathematics and Computer Science, Tongling University, Tongling 244000, China)
Abstract: In the analysis of sequence frequent pattern mining algorithm on the basis of, an index based on the internal matrix FIBOIM algorithm,which take full advantage of previous mining in the process of the information to reduce this time in the process of excavation costs. FIBOIM algorithm basic idea: Scanning Service database again, based on the internal structure of the matrix indexing IM; candidate in the analysis based on the model generated a number of projects set on the basis of the traditional algorithm combines the characteristics of IM matrix, and improve the relevant candidate projects Set Algorithm, a frequent item sets improve the production efficiency. FIBOIM algorithm experiment proved the correctness and effectiveness.
Key words: data mining; frequent itemsets; association rules; index;matrix
数据挖掘是用于大规模数据处理的一种新的思维方法及技术手段,它融合了人工智能、机器学习、模式识别等多学科的理论、方法和技术。关联规则的挖掘是数据挖掘中的一个重要研究课题,发现频繁项目集是关联规则和序列模式等数据挖掘应用中的关键技术和步骤。
在频繁项目集的算法研究中,人们先后提出了很多算法,如Apriori、AprioriFREQ、DMFI、Pincer-Search、FP-Growth等,归纳起来主要有两大类[1-3]:1) 候选生成项目集并测试方法;2) 模式增长的方法。在这些算法中,其中以Agrawal等人提出的Apriori算法最为著名,其后的数据挖掘算法大多建立在Apriori算法基础上,它们可以有效地发现事务数据库中的最大频繁项目集。由于最大频繁项目集中已经隐含了所有频繁项目集,因此在发现最大频繁项目集的同时,也发现了所有频繁项目集。如何提高最大频繁项集的生成效率和可扩展性一直是近几年数据挖掘领域研究的热点之一。
1 相关概念及性质描述
定义1:设I={I1,I2,…,Im}是一个项目集合,事务数据库D={t1, t2,…,tn}是由一系列具有惟一标识的TID的事务组成,每个事务ti={Ii1,Ii2,……,Iik}并且Iik∈I,关联规则是形如X?圯Y的蕴涵式,其中X,Y?奂I是两
文档评论(0)