基于图论最大频繁项集挖掘.docVIP

下载本文档

7
0
约4.2千字
约 9页
2018-08-29 发布于福建
举报
版权申诉

基于图论最大频繁项集挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图论最大频繁项集挖掘

基于图论最大频繁项集挖掘　　摘要：利用有向项集图来存储事务数据库中有关频繁项集的信息，提出了有向项集图的三叉链表式存储结构和基于有向项集图的最大频繁项集挖掘算法。它不仅实现了事务数据库的一次扫描，减少了I/O代价，而且可以同时解决好稀疏数据库和稠密数据库的最大频繁项集挖掘问题。　　关键词：数据挖掘；关联规则；最大频繁项集；有向项集图；三叉链表式存储结构；挖掘算法　　中图分类号：TP311.13文献标志码：A 　　文章编号：1001-3695(2007)11-0043-03 　　　　数据挖掘也称数据库中的知识发现，是从大型数据库中发现潜在的、新颖的、有价值的、能被用户理解的概念和信息的过程。在数据挖掘研究中，关联规则挖掘是一个非常重要的研究内容[1]；　　挖掘频繁项集是研究关联规则的基本步骤，也是关键步骤。但是对于一个维数为k的频繁项集F，根据apriori原理，F的每个子集都是频繁的，共有2??k-1个子集。当k很大时，形成一个复杂度为NP的难度问题。由于最大频繁项集已经隐含了所有频繁项集信息，而且许多数据挖掘应用也只需要挖掘最大频繁项集，如生物信息数据库、数据通信数据库等，近些年来很多人开始投入到最大频繁项集的挖掘研究中。目前，最大频繁项集挖掘算法主要是基于apriori或FP－tree的改良和衍生算法。例如基于apriori的有max－miner、pincer－search、Mafia、GenMax等，这些算法均需要多次扫描数据库，增大了I/O负载和时间开销，但在处理稀疏数据库　　方面表现出了优秀的特性；基于FP－tree的有FPmax、IDMFIA、FPMFI等，这些算法仍需要两次扫描数据库，但在处理稠密数据库方面的性能明显优于基于apriori的算法。由于访问内存中的数据比访问外存磁盘中相同大小的数据快五或六个数量级，上述这些算法至少需要两次外存数据库扫描；其数据结构表达形式也主要是枚举树、字典树和频繁模式树（FP－tree）等树型结构，结构较单一。　　　　2．2三叉链表式存储结构?? 　　有向项集图的三叉链表式存储结构由索引链表、节点链表和连接链表三类链表构成。索引链表是主链表，有且只有一个。其每个索引单元均与一个节点链表和一个连接链表相关联，从而构成了一个以索引链表为主链表，以若干节点链表和连接链表为枝杈的三叉型存储结构[4]。 ?? 　　索引链表是由索引单元组成的链表。索引单元按顺序存储，每个单元包括两个链表指针和两个整型量。两个指针分别指向一个节点链表和一个连接链表；两个整型量分别存储了相应两类链表的长度信息。?? 　　节点链表存储了一个有向项集图的节点数据，它的单元就是节点，节点单元之间顺序存储。每个节点包括了本体数据域和连接关系域。对于有向项集图来说，节点描述了事务数据库中的1－频繁项集模式，因而其本体数据域信息一般包括频繁项名称、支持频繁项的Tidlist和支持数；连接关系域包括一个指针和一个整型量，分别为出点指针和出度，指针指向连接链表的相应连接单元。?? 　　连接链表单元存储的是节点的相对地址。相对地址由两个偏移量构成，分别表示连接节点所隶属的节点链表在索引链中的偏移位置和此连接节点在节点链表中的偏移位置。节点链表中的节点可以通过出点指针和出度在连接链表中找到一段连续的连接单元，这些单元存储的节点地址就是本节点邻接点的相对地址。因此，根据这些地址就可以连接本节点的所有邻接节点。三叉链表基本结构及其相互关系如图1所示。?? 　　2．3有向项集图的构建算法?? 　　传统的关联规则挖掘算法利用的是横向数据库，?M向数据库中的事务是一个二元组T=（Tid，itemset）。其中：Tid 是事务序列号，itemset是事务支持的项集。其计算候选项集的支持度是通过多次扫描数据库来完成的。为了减少扫描数据库次数，本文将传统的横向数据库转换为纵向数据库形式。在纵向数据库中数据被表示成如下的二元组（item，Tidlist）。其中：项item与支持它的一个事务列表Tidlist 相对应；Tidlist中保存的是相应的事务序列号Tid。?? 　　　　本文应用二进制编码技术，定义了项的Tidlist 的长度与事务数据库中的事务总数L相等，并用L个二进制位，即L/8个字节来表示一个Tidlist。每一个字节中的一个位的取值是0或1，分别对应着数据库中相应的事务不支持或支持该项。这样，计算候选项集支持数时只需要执行相对应的二进制位操作，代替了文件记录的集合运算，有效地提高了计算效率和存储效率。?? 　　由于1－频繁项集升序排列可减少运算比较次数[5]，首先采用快速排序算法对所有满足最小支持数要求的项（1－频繁项集）按支持数升序方向进行排序；然后选择第一个项作为