- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新的关联规则挖掘算法
摘要:对关联规则算法进行了研究和分析,基于候选集的Apriori-like算法需要反复扫描数据库,并产生大量的候选集,在挖掘低支持度、长模式的规则时效率低下。针对算法的缺陷,该文提出了一种PS算法,优化了关联规则的挖掘。实验结果证明了该算法的有效性。
关键词: 数据挖掘;关联规则
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)17-20ppp-0c
A New Association Rules Mining Algorithm
LIU Zhi-yi, CHANG Rui
(Changzhou Institute of Technology,Changzhou 213002,china)
Abstract:After analyzing and studying data mining algorithms, there are great flaws in Apriori-like algorithm based on candidate sets, the algorithm needs multiple scanning, produces lots of candidate sets, and has low efficiency when mining low support threshold, long rules. This paper introduces a new algorithm PS which optimizes association rules mining. Experimental results show the algorithm is effective.
Key words:data mining;association rules
Apriori算法[1-3]是关联规则中最常被使用的方法,但其有些缺点:1)寻找频繁项目集时,会产生大量侯选项目集2)需要多次扫描数据库3)当最小支持度改变时,需要重新挖掘。以后虽有许多研究针对此点做改进,但大都没有跳出Apriori算法的整体框架,包括前面提出的AprioriMend算法。在此提出一个新的挖掘算法PS(Power Set),它将完全脱离Apriori算法的框架结构。
PS算法是一个执行效率快而且平稳的关联规则挖掘算法,它含有以下特性:只需要扫描数据库一次,从而可以大大降低I/O存取的时间;算法结构简单清晰;可以实现先发现各个项目集合,然后用户在输入最小支持度,增加挖掘的弹性,即用户可以任意改变最小支持度,而无须重新扫描整个数据库;执行效率平稳,不会随着支持度的变动,而影响其执行效率;可以运用在增量式挖掘;不需要进行数据库的前期处理。
1 几个相关概念
定义1:幂集合PS(A):对于任意一个非空集合A,它的幂集合PS(A)就是由A的全部子集组成的集合。例如非空集合A={a,b,c},则它的幂集合PS(A)={{φ},{a},{b},{c},{a,b},{a,c},{b,c},{a,b,c}}。
定义2:对任意事务数据库D,I={i1,i2……im},liuzy01.tif ,则D中包含X的事务数量称为X在D中的频度,简称为X的频度。
定义3:对于任意集合A={u1,u2,u3,……,ui},其中所含元素的个数称之为该集合的长度,记作Length(A)。
2 PS算法描述
PS算法主要的运作规则相当快速简单,主要步骤:在读取事务数据库D中的每一条交易记录时,直接以该笔记录的商品项目本身拆解,也就是直接求出该交易记录所对应的集合的所有子集(除空集外),例如,ABC为此笔交易记录,可以拆解出ABC、AB、AC、BC、A、B、C七个子集,接着将这些子集依据集合长度存放在不同的结果表中并做计数动作,如果此集合已经存在于对应的结果表中,则将该集合的计数值加1;如果不存在,则将该集合加入其中,并设置初始值为1。完成以上动作后,此笔交易记录的拆解才算结束。所以当扫描事务数据库D一次以后,即表示所有的交易记录都拆解完成。最后,只需等待使用者输入最小支持度和最小置信度,就可以产生频繁项目集和关联规则,算法伪代码如下:
PS算法
输入:事务数据库D
输出:所有项目集
(1) scan D;
(2) Result_Table RT; //RT的个数由D中的所有项目总数确定
(3) Forall transaction t contains D do begin
(4) AnalysisElements(transcaton
文档评论(0)