- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于矩阵频繁项集更新算法
一种基于矩阵的频繁项集更新算法
摘 要:针对相关算法在处理频繁项集更新时所存在的问题,提出了一种基于矩阵的频繁项集更新算法。该算法首先以时间为基准将更新后的数据库分为原数据库和新增数据库,分别将它们转换为0-1矩阵,通过矩阵裁剪、位运算产生新增频繁项集,并利用已有频繁项集更新原有频繁项集。实验仿真结果不但证明了该算法的可行性和高效性,而且还证明了它适合大型、稠密性数据库的频繁项集更新。
关键词:数据挖掘; 关联规则; 频繁项集; 更新
中图分类号:TP311 文献标志码:A
文章编号:1001-3695(2010)03-0837-04
doi:10.3969/j.issn.1001-3695.2010.03.008
Updating algorithm based on matrix for mining frequent item sets
XU Jia-li??1, CHEN Jia??2
(1.School of Electronic Information Engineering, Chengdu University, Chengdu 610106, China; 2.School of Computer Science Enginee-ring, University of Electronic Science Technology of China, Chengdu 610054, China)
Abstract:Aiming at updating problems of frequent item sets, this paper proposed an updating algorithm based on matrix(UABM) for mining frequent item sets.Divided the updated database into original database and new one based on time. Converted these databases into matrixes.Got the new frequent sets by matrix cropping and the bit operation, and updated the gotten frequent item sets on gotten ones.The experiments show the algorithm is not only feasible and efficient but also fit to update freguent item sets for a large-scale and dense data base.
Key words:data mining; association rules; frequent item sets; updating
关联规则挖掘是数据挖掘领域中的一个重要研究课题,Agrawal等人于1993年提出挖掘顾客交易数据库中项集间的关联规则问题后,至今已有很多高效的关联规则挖掘算法[1~5],但这些算法大多针对静态数据和固定的最小支持度。而在实际的挖掘过程中,用户往往需要对最小支持度进行不断调整来寻找真正感兴趣的规则;另一方面事务数据库的数据随时间而变化,如在线提供的实时服务、大型商场的购物清单所提供的数据都是动态变化的,这些使得当前已发现的关联规则可能不再有效,也可能还存在新的有效规则有待进一步发现。因此,有必要设计高效的算法来更新维护已挖掘出的关联规则。
关联规则挖掘分两步:产生频繁项集;对每个频繁项集产生所有大于最小置信度的规则。由于第二步相对较易,关联规则挖掘的研究重点放在了第一步,同样地,关联规则的更新重点也就转为频繁项集的更新。频繁项集的更新一般分为三种:a)最小支持度不变、数据库记录数发生变化;b)最小支持度发生变化、数据库记录数不变;c)最小支持度、数据库记录数都发生变化。
目前已有一些典型的频繁项集更新算法出现。FUP[6]、IFUP[7]都是在最小支持度给定的情况下,当数据库记录数发生变化时,在新增事务中寻找频繁项集,然后结合已有频繁项集挖掘出新的频繁项集。虽然它们在挖掘过程中利用已有知识避免原有频繁项集的重复挖掘,在一定程度上提高了算法的效率,但由于它们都是基于Apriori框架的,需要多次扫描数据库并产生庞大的候选项集,其效率并没有得到充分的提高。IUA[8]则是针对频繁项集更新的第二种情况,由于它仍然基于Apriori框架,仍然需要多次扫描数据库并产生庞大的候选项集。人们对第
文档评论(0)