多维序列模式挖掘.docVIP

下载本文档

20
0
约5.28千字
约 3页
2018-02-15 发布于河南
举报
版权申诉

多维序列模式挖掘.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多维序列模式挖掘

1基本的序列模式挖掘 (1)基于Apriori特性的算法早期的序列模式挖掘算法都是基于Apriori特性发展起来的。Rakesh Agrawal和Ramakrishnan Srikant在文献[1]中最早提出了序列模式挖掘的概念并且提出了3个基于Apriori特性的算法[1]：AprioriAll，AprioriSome，Dynamic-Some。基于这一思想，研究者又提出了GSP[2]算法，它对AprioriAll算法的效率进行了改进并且加入了时间限制、放宽交易的定义、加入了分类等条件，使序列模式挖掘更符合实际需要。GSP算法是最典型的类Apriori算法，后来研究者又相继提出了MFS[3]算法和PSP[4]算法以改进GSP算法的执行效率。基于Apriori特性的算法思想来源于经典的关联规则挖掘算法Apriori，它满足一条重要的性质，即所有频繁模式的子模式也是频繁的。此类算法可以有效地发现频繁模式的完全集。但是类Apriori算法最大的缺点是需要多次扫描数据库并且会产生大量的候选集，当支持度阈值较小或频繁模式较长时这个问题更加突出。 (2)基于垂直格式的算法最典型的是SPADE[5]算法。它的基本思想是：通过把序列数据库转换成垂直数据库格式，然后利用格理论和简单的连接方法来挖掘频繁序列模式。SPADE算法最大的优点是扫描数据库的次数大大减少，整个挖掘过程仅需扫描3次数据库，比GSP算法更优越。然而，SPADE算法需要额外的计算时间和存储空间用以把水平格式的数据库转换成垂直格式，并且它的基本遍历方法仍然是广度优先遍历，需要付出巨大候选码的代价。另一个典型的算法是SPAM算法。它实施了有效支持度计数与数据库垂直数位映象的表示方法相结合的搜索策略，挖掘长序列模式时效率特别高。 (3)基于投影数据库的算法类Apriori算法由于会产生大量的候选集并且需要多次扫描数据库，因此在挖掘长序列模式方面效率很低。为了克服这些缺点，一些研究者开始另辟蹊径，提出了基于投影数据库的算法。此类算法采取了分而治之的思想，利用投影数据库减小了搜索空间，从而提高了算法的性能。比较典型的算法有FreeSpan[6]和PrefixSpan[7]。FreeSpan算法的基本思想是：利用当前挖掘的频繁序列集将数据库递归地投影到一组更小的投影数据库上，分别在每个投影数据库上增长子序列。FreeSpan算法的优点是它能够有效地发现完整的序列模式，同时大大减少产生候选序列所需的开销，比典型的类Apriori算法GSP性能更优越。然而利用Free_Span可能会产生很多投影数据库，如果一个模式在数据库中的每个序列中都出现，该模式的投影数据库将不会缩减；另外，由于长度为女的子序列可能在任何位置增长，搜索长度为(k+1)的候选序列需要检查每一个可能的组合，这是相当费时的。针对FreeSpan的缺点，又提出了PrefixSpan算法。它的基本思想是：在对数据库进行投影时，不考虑所有可能的频繁子序列，而只是基于频繁前缀来构造投影数据库，因为频繁子序列总可以通过增长频繁前缀而被发现。PrefixSpan算法使得投影数据库逐步缩减，比FreeSpan效率更高。并且它还采用了双层投影和伪投影两种优化技术以减少投影数据库的数量。PrefixSpan算法的主要代价是构造投影数据库。在最坏的情况下，PrefixSpan需要为每个序列模式构造投影数据库，如果序列模式数量巨大，那么代价也是不可忽视的。除此之外，文献[8]中提出了一种无重复投影数据库扫描的算法SPMDS。它通过对投影数据库的伪投影作单项杂凑函数，检测是否存在重复的投影，从而避免大量重复扫描数据库，很好地解决了密集数据集和长模式的挖掘问题。 (4)基于内存索引的算法典型的算法是MEMISIP[9]。MEMISP算法整个过程只需要扫描数据库一次，并且不产生候选序列也不产生投影数据库，大大地提高了CPU和内存的利用率。实验表明，MEMISP比GSP和PrefixSpan更高效，而且对于数据库的大小和数据序列的数量也有较好的线性可伸缩性。对于那些较大的不能一次装入内存的数据库，MEMISP把它划分为能存储在内存中的部分数据库，然后对每个部分数据库应用MEMISP得到频繁序列，然后通过再一次扫描数据库得到最终的频繁序列。因此对于大型的数据库，MEMISP也仅仅只需要扫描两次数据库。 (5)其他除此之外，文献[10]提出了基于改进的FP树的算法ST-MFP。它通过改进FP树的结构，使得树的每个节点可以存储一个项集。在扫描一次数据库后，STMFP树可以存储所有的序列信息。另外，该算法提出了一种新的挖掘方法，它可以找到STMFP树中每条路径上从叶节点到根节点所有的组合从而更有效地挖掘出序列模式。STMFP算法的最大优点是在整个