基于圈和树的频繁项集挖掘算法.docVIP

下载本文档

2
0
约6.29千字
约 9页
2018-03-16 发布于北京
举报
版权申诉

基于圈和树的频繁项集挖掘算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于圈和树的频繁项集挖掘算法　　摘要:Apriori算法是最经典的关联规则提取算法,但其存在产生庞大的候选频繁项集的缺点。该文针对Apriori算法这方面的不足,首先提出了所有频繁项集在其频繁2-项集的无向图中一定是一个圈的论点,并依该论点为基础,提出了一种基于树的快速寻找候选频繁项集的新方法。通过实例和实验结果表明,该方法不仅可以大大减少候选项集Ck的数目,而且有效地优化了算法的空间复杂度和时间复杂度。　　关键词:Apriori;圈;树;频繁项集　　中图分类号:TP391文献标识码:A 文章编号:1009-3044(2010)13-3502-03 　　Algorithm of Frequent Itemsets Mining Based on Close Chain and Tree 　　ZHAN Zhi-fei 　　(School of Physics and Information Technology, Chongqing Normal University, Chongqing 400047, China) 　　Abstract: Apriori is the most classical algorithm on association rule mining. But its disadvantage is so large sum of frequent itemsets. According to this shortcoming, the article proposes two points: firstly, frequent itemsets is a close chain in undirected graph of frequent 2-itemsets. Secondly, a new algorithm is proposed based on tree, which can search candidate frequent itemsets quickly. Experimental results show that this new algorithm not only reduce the Ck quantity, but also optimize complexity of space and time. 　　Key words: Apriori; close chain; tree; frequent itemsets 　　数据挖掘也称数据库中的知识发现,是指从数据库中提取潜在的有用的知识,是当前人工智能、数据加工和信息决策研究的新领域。其中的事务数据库挖掘关联规则是数据挖掘领域中一个非常重要的研究课题[1]。最经典的关联规则挖掘算法是Apriori算法[2],它是由Agrawal等人于1993年首先提出的,是一种最有影响的挖掘布尔关联规则频繁项集的宽度优先算法,使用一种称做逐层搜索的迭代方法,i-项集用于搜索(i+1)-项集。找出频繁1-项集集合,该集合记为L1。L1用于寻找频繁2-项集的集合L2,L2用于寻找L3,如此下去,直到不能找到频繁k-项集Lk。如何由Li-1找到Li分为连接和剪枝两个过程组成,在文献[3]中已有详细描述,在些不再叙述。　　作为最经典的关联规则提取算法,Apriori存在两个致命的瓶颈[4]: 　　一是需多次扫描事务数据库,需很大的I/O负载。每次K循环,候选频繁项集Ck中的每个元素都必须通过扫描数据库来验证其是否加入频繁项集Lk,假如一个频繁项目集包含10项,则至少需要扫描数据库10遍。二是可能产生庞大的候选频繁项集。由频繁Lk-1项集产生的候选频繁项集Ck的数量是呈指数增长的,如1000个1-频繁项目集可以产生接近500000个元素的2-频繁候选集,如此庞大的候选集对时间和主存空间都是一个挑战。　　针对Apriori算法的不足,人们围绕着怎样精简候选项集Ck的大小和减少对数据库的扫描次数,已经提出了不少Apriori算法的变形,如有Park等人的基于哈希表技术的DHP算法[5]; Savasere等提出的划分数据法[6],H. Toivonen使用抽样来改进的方法[7];动态项集计数法[8];量化关联规则挖掘算法[9]等。　　本文提出一种新的寻找候选频繁项集的方法,只需要扫描一遍数据库,通过树结构,搜索无向图中圈的数目,则可以大大减少候选项集Ck的数目,节约计算开销。　　1 预处理　　首先将数据库中的各事务用矩阵的形式表示出来,矩阵的第i行第j列表示第i个项集中是否存在第j个事务,1为是,0为否。这样在计算候选项集的支持度时就不再需要对数据库进行扫描,只需用“与运算”就能很快得出候选项集的支持度,用