一种新的关联规则挖掘算法.docVIP

下载本文档

2
0
约6.3千字
约 11页
2018-04-06 发布于北京
举报
版权申诉

一种新的关联规则挖掘算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种新的关联规则挖掘算法　　摘要：对关联规则算法进行了研究和分析，基于候选集的Apriori-like算法需要反复扫描数据库，并产生大量的候选集，在挖掘低支持度、长模式的规则时效率低下。针对算法的缺陷，该文提出了一种PS算法，优化了关联规则的挖掘。实验结果证明了该算法的有效性。　　关键词：数据挖掘；关联规则　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)17-20ppp-0c 　　　　A New Association Rules Mining Algorithm 　　LIU Zhi-yi, CHANG Rui 　　(Changzhou Institute of Technology,Changzhou 213002,china) 　　Abstract:After analyzing and studying data mining algorithms, there are great flaws in Apriori-like algorithm based on candidate sets, the algorithm needs multiple scanning, produces lots of candidate sets, and has low efficiency when mining low support threshold, long rules. This paper introduces a new algorithm PS which optimizes association rules mining. Experimental results show the algorithm is effective. 　　Key words:data mining;association rules 　　　　Apriori算法[1-3]是关联规则中最常被使用的方法，但其有些缺点：1)寻找频繁项目集时，会产生大量侯选项目集2)需要多次扫描数据库3)当最小支持度改变时，需要重新挖掘。以后虽有许多研究针对此点做改进，但大都没有跳出Apriori算法的整体框架，包括前面提出的AprioriMend算法。在此提出一个新的挖掘算法PS（Power Set），它将完全脱离Apriori算法的框架结构。　　PS算法是一个执行效率快而且平稳的关联规则挖掘算法，它含有以下特性：只需要扫描数据库一次，从而可以大大降低I/O存取的时间；算法结构简单清晰；可以实现先发现各个项目集合，然后用户在输入最小支持度，增加挖掘的弹性，即用户可以任意改变最小支持度，而无须重新扫描整个数据库；执行效率平稳，不会随着支持度的变动，而影响其执行效率；可以运用在增量式挖掘；不需要进行数据库的前期处理。　　　　1 几个相关概念　　　　定义1：幂集合PS（A）：对于任意一个非空集合A，它的幂集合PS（A）就是由A的全部子集组成的集合。例如非空集合A={a,b,c}，则它的幂集合PS（A）={{φ}，{a},{b},{c},{a,b},{a,c},{b,c},{a,b,c}}。　　定义2：对任意事务数据库D，I={i1,i2……im}，liuzy01.tif ，则D中包含X的事务数量称为X在D中的频度，简称为X的频度。　　定义3：对于任意集合A={u1,u2,u3,……，ui}，其中所含元素的个数称之为该集合的长度，记作Length(A)。　　　　2 PS算法描述　　　　PS算法主要的运作规则相当快速简单，主要步骤：在读取事务数据库D中的每一条交易记录时，直接以该笔记录的商品项目本身拆解，也就是直接求出该交易记录所对应的集合的所有子集（除空集外），例如，ABC为此笔交易记录，可以拆解出ABC、AB、AC、BC、A、B、C七个子集，接着将这些子集依据集合长度存放在不同的结果表中并做计数动作，如果此集合已经存在于对应的结果表中，则将该集合的计数值加1；如果不存在，则将该集合加入其中，并设置初始值为1。完成以上动作后，此笔交易记录的拆解才算结束。所以当扫描事务数据库D一次以后，即表示所有的交易记录都拆解完成。最后，只需等待使用者输入最小支持度和最小置信度，就可以产生频繁项目集和关联规则，算法伪代码如下：　　PS算法　　输入：事务数据库D 　　输出：所有项目集　　（1） scan D; 　　（2） Result_Table RT; //RT的个数由D中的所有项目总数确定　　（3） Forall transaction t contains D do begin 　　（4） AnalysisElements(transcaton