- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
算法分析与研究关联规则挖掘的优化算法.doc
算法分析与研究关联规则挖掘的优化算法
摘要:频繁项集挖掘是关联规则挖掘的核心部分,目前大多数关于关联规则挖掘的研究都集中于如何提高频繁项集挖掘的效率,然而在实际应用中,决策者面对的是最终从频繁项集中生成的规则集,因此优化规则的生成过程及生成规则同样值得重视。本文提出频繁项集的子集树这一模式来生成关联规则,不仅简化规则的生成过程还可缩小决策者面对的规则集,更便于规则的增量更新。
关键词:频繁项集;关联规则;项集子集树
中图分类号:TP113 文献标识码:A
1引言关联规则挖掘是数据挖掘中重要的研究任务。自从1993年Agrawal[1]提出后,关联规则挖掘问题就受到了广泛的关注。
一般来说,关联规则挖掘的过程由以下两步组成:
1)采用某种频繁项集挖掘方法发现所有的频繁项集。
2)根据所获得的频繁项集,产生相应的强关联规则。
由于第二步的开销远低于第一步,挖掘关联规则的总体性能由第一步决定。因此,许多关联规则的研究都是围绕着第一步算法效率改进的研究,如Apriori算法[2]及其改进形式[3-5]和后来的FP-growth[6]算法。然而这些研究仅从技术的角度理解和描述挖掘问题,注重的是算法的效率,但是对于一定应用领域,决策者最终面对的是从频繁项集中产生的规则,他们希望从规则中发现有用的知识来辅助决策的制定。如果直接从频繁项集中生成全部规则,将是一个庞大的集合,不利于决策者辨别。并且在挖掘的过程中有两个由用户设定的阈值,而用户有时也不能给出一个合适的阈值,因此常常需要多调整几次阈值来产生令决策者满意的结果。但是,每调整一次阈值就重新生成一次所有规则,不仅浪费时间而且浪费之前已产生的资源。
现有关于优化关联规则的的研究可概括为以下两种方法:一种是采用附加度量,如信任度conviction [7],χ2度量[8],全置信度[9]等;另一种是由用户定义约束条件,如项集约束[10],概念层次约束[8],规则形式约束[11]等。第一种方法相当于重新定义了规则的有趣性。然而规则是否有趣只有用户能够确定,这种判断是主观的,因用户而异。因此,可以说不存在在任何情况都能够产生有趣规则的度量方式。第二种方式是采取一定度量方式后结合实际应用情况按用户的需求增加附加约束来缩小被考虑的规则的范围。本文是在传统的支持度-置信度框架下生成有趣规则,首先采用Apriori算法生成频繁项集,然后根据文中定义的频繁项集的子集树生成关联规则。该方法在不丢失挖掘信息的基础上减少了规则数量并且最大限度地利用了旧的阈值下生成的关联规则,不仅有利于决策者的分析,还可以提高规则增量更新的效率。
(4)为了尽量缩小产生的规则数,在建立项集的频繁子集树过程中对生成的具有相同根结点的同层频繁项集按项集的支持度进行升序排序。
该过程将规则的剪枝过程融合在了规则的生成过程中,不仅减小了规则数量而且有利于阈值更新的情况下规则的更新。
4算例分析
为了说明算法的应用过程,本文以表1的交易数据集为例进行分析.
5结论
本文主要是针对规则的生成过程,提出了一种基于频繁项集的子集树挖掘方法,先通过生成频繁项集的频繁子集树,然后在子集树上搜索满足阈值的频繁子结点,最后由满足条件的子结点生成相应的规则。用该子集树进行规则的生成,不仅可以减少部分冗余规则的生成,更可以便于规则的增量新。
参考文献
[1]R. Agrawal, T. Imielinski, A. Swami. Mining Association Rules between Sets of Items in Large Database[C]. ACM SIGMOD Conference Proceedings on Management of Data,Washington DC,USA,1993: 207-216.
[2]R. Agrawal, R. Srikant. Fast Algorithms for Mining Association Rules[C]. International conference on very large database (VLDB), Santiago,Chile,1994: 487-499.
[3]H. Toivonen. Sampling Large Database for Association Rules[C]. In Proc. Of the 22nd Int. Conference on Very Large Databases,Mumbai,India,996: 134-145.
[4]R. Agrawal, J. Shafer. Parallel Mining
文档评论(0)