基于格快速频繁项集挖掘算法.docVIP

下载本文档

1
0
约5.59千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于格快速频繁项集挖掘算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于格快速频繁项集挖掘算法

基于格快速频繁项集挖掘算法　　基金项目：国家自然科学基金资助项目；湖南省自然科学基金资助项目（12JJ2035）；“中央高校基本科研业务费”资助项目　　作者简介：刘彩苹（1978-），女，湖南邵阳人，湖南大学教师，博士　　江西抚州344000；3.湖南大学电气与信息工程学院，湖南长沙410082）　　摘要：随着数据库规模的增加或支持度阈值的减少，频繁模式的数量将以指数形式增长，FPgrowth算法运行的时空效率将大为降低本文提出一种基于格的快速频繁项集挖掘算法LFPgrowth，算法利用等价关系将原来的搜索空间（格）划分成若干个较小的子空间（子格），通过子格间的迭代分解，将对网格P（I）的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘实验结果和理论分析表明，在挖掘大型数据库时，LFPgrowth算法的时间和空间性能均优于FPgrowth算法　　关键词：数据挖掘；FP树；频繁项集；格　　中图分类号：TP31113文献标识码：A 　　频繁项集挖掘是数据挖掘中的一类重要挖掘问题，广泛应用于关联规则挖掘、相关性分析、入侵检测、序列挖掘、分类分析、聚类分析、Web挖掘、XML挖掘等诸多数据挖掘任务长期以来，人们对频繁模式的挖掘进行了大量深入的研究工作Han等人提出了一种比Apriori算法快一个数量级的FPgrowth算法随后，各国的研究者们提出了许多其他改进算法，如Koh等人提出的基于树的高效频繁项集挖掘算法，李也白等人用一种辅助存储结构提高了查询的效率，Nguyen利用矩阵提出的频繁项集挖掘算法，郭宇红等人提出的反向频繁项集挖掘算法，Zeng等人提出了加权关联规则挖掘算法Jalan提出了一种非递归频繁项集挖掘算法Adnan提出一种自适应的频繁项集挖掘算法赵强利提出一种快速选择性集成算法范明提出一种不生成条件FP树的算法谭军提出了一种单遍扫描频繁模式算法　　FPgrowth 算法开辟了有效挖掘频繁模式的新途径然而，它的时间和空间效率还不足够高，仍需改进FPgrowth 算法的主要问题是建树过程中必须将提供频繁项集的数据全部压缩到一棵频繁模式树（或FP树），在挖掘时，由长度为1的频繁模式（初始后缀模式）开始，递归的构造条件FP树进行挖掘，在建树和挖掘过程中都需要占用大量的内存当数据库很大，或者数据库中的频繁1项集的数目很大时，运行速度将大为降低；更有甚者，可能由于无法构造基于内存的FP树，该算法将不能有效地工作　　本文结合大型数据库本身的特性，在分析FPgrowth算法的基础上，提出了一种基于格的大型数据库频繁模式挖掘算法LFPgrowth实验和分析表明，在挖掘大型数据库时，LFPgrowth算法具有较好的时间和空间效率　　1基本概念和问题的描述　　为方便讨论，以事务数据库为背景设为所有项目的集合，为事务数据库，其中每个事务有一个惟一的标识TID表1中的事务数据库是本文的示例数据库该数据库中事务已经按照各项的支持度计数递增地将各事务中的项重新排列　　在事务数据库中挖掘频繁项集的问题可以描述为：给定事务数据库D和最小支持度阈值minsup ，挖掘所有的频繁项集　　由定理3得到以下结论，对网格P（I）的频繁项集挖掘转化为对多个子网格的并集进行的约束频繁项集的挖掘，不会影响频繁项集完全集的正确输出　　22算法步骤　　实现LFPgrowth算法的关键是子格（子搜索空间）所对应的事务的迭加，如果复制所有的子格对应的事务进行迭加，时间和空间的效率会非常低为此，可以借鉴Christian Borgelt教授在研究Recursive elimination算法时提出的事务链表（transaction list array）来实现迭加　　事务链表是由一组单向数据链表组成，每一个单向数据链记录一个子格P（k）所对应的事务集（以下简称为P（k）事务集）的信息，每一个单向数据链都包括一个计数器（support counter）和一个指针计数器的值表示P（k）事务集的总数，指针则用于保存P（k）事务集的关联信息将所有单向数据链表按P（k）处理的顺序排列，便组成了事务链表样例数据库的事务链表组如图3所示　　当数据库为海量数据库时，可将它分解迭加成多个P（k）^进行挖掘，而当某个P（k）^对应的事务很多，依然无法在内存中构造Fp树时，挖掘就难以顺利进行根据定理5可知 P（k）^是格，因此我们可将P（k）^再次进行迭加分解，如果分解后扩展子格依然无法在内存中构造Fp树时，就再继续分解直到可以在内存中构造扩展子格的Fp树为止　　3实验结果和分析　　31实验结果　　本节对LFPgrowth算法和FPgrowth算法进行比较，程序代码均用Visual C