序列的模式数据挖掘算法的研究.docVIP

下载本文档

6
0
约2.94千字
约 7页
2018-10-16 发布于福建
举报
版权申诉

序列的模式数据挖掘算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

序列的模式数据挖掘算法的研究

序列的模式数据挖掘算法的研究　　摘要：序列模式的发现是数据挖掘领域一个活跃的研究分支，即在序列数据库中找出所有的频繁子序列。本文先介绍序列模式挖掘中的一些基本概念，然后详细描述FreeSpan和PrefixSpan2个基于投影、分治的模式增长的重要算法。　　关键词：序列模式；算法　　一、基本术语和定义　　设I= {i1，i2，……，in}是一个项目集合，项目集或者项集（items）就是各种项目组成的集合，即I 的所有子集。一个序列就是若干项集的有序列表，一个序列S可表示为〈s1，s2，……，sn〉，其中sj为项集，也称作S的元素。元素由不同的项组成，可表示为（x1，x2，……，xn）。当元素只包含一项时，一般省去括号，如（x2）一般表示为x2。元素之间是有顺序的，但元素内的项是无序的，一般定义为词典序。序列包含项的个数称为序列的长度，长度为L的序列记为L- 序列. 序列数据库就是元组（tuples）〈sid， s 〉的集合，其中s是序列，sid 是该序列的序列号，元组的个数称为序列数据库的大小，记作|SDB|。　　1、 FreeSpan算法思想　　FreeSpan ，即频繁模式投影的序列模式挖掘，其基本思想为：利用频繁项递归地将序列数据库投影到更小的投影数据库集中，在每个投影数据库中生成子序列片段.这一过程对数据和待检验的频繁模式集进行了分割，并且将每一次检验限制在与其相符合的更小的投影数据库中. 　　2、FreeSpan 算法分析：　　它将频繁序列和频繁模式的挖掘统一起来，把挖掘工作限制在投影数据库中，还能限制序列分片的增长.它能有效地发现完整的序列模式，同时大大减少产生候选序列所需的开销，比基于Apriori 的GSP算法快很多.不足之处，它可能会产生许多投影数据库，如果一个模式在数据库中的每个序列中出现，该模式的投影数据库将不会缩减；另外，一个长度为k 的序列可能在任何位置增长，那么长度为k + 1的候选序列必须对每个可能的组合情况进行考察，这样所需的开销是比较大的. 对FreeSpan 中频繁项矩阵F占用存储空间的定量分析如下：设序列数据库中有m个频繁项，频繁项矩阵共需要|M|= m +32×（m-1）×（m-2）个计数单元。例如，m=1000，|M|=1.5×106=3Mb（假设每个计数单元占用2b 的空间），目前一般的计算机就很容易满足这个要求[4]。　　3、PrefixSpan算法的提出　　在许多应用中，如DNA分析和股市序列分析等，数据库常包含大量的序列模式，而且许多模式很长，此时有必要重新审视序列模式挖掘问题，以探索一些更加有效、易于扩展的方法.通过观察发现，基于Apriori算法的瓶颈在于每一步的候选集生成和测试，能否找到一种方法，既能吸取Apriori的灵魂又能避免或者充分减少昂贵的候选集生成和测试.顺着这个思路， PeiJian ，Han Jiawei 及Wang Jianyong 等人基于分治和模式扩展的原理提出了模式扩展方法，代表性的算法有FreeSpan 和PrefixSpan ，其中PrefixSpan改进法采用了伪投影技术，性能比FreeSpan 好.下面描述并分析PrefixSpan 算法. 　　4、 PrefixSpan 算法思想及描述　　该算法就是通过前缀投影来挖掘序列模式，进行投影时，并不考虑所有出现的频繁子序列，而是找出前缀序列，把相应的后缀投影成为一系列的投影数据库. 对于每一个投影数据库，只须找出局部频繁模式，且不产生候选码，它的主要步骤如下：　　① 扫描数据库一次，找出频繁L2序列，假设为k个；　　② 划分研究空间：把完整的序列模式划分为k个研究空间，分别以频繁L2序列为前缀；　　③ 构造相应的数据库，也就是对应前缀的后缀集合；　　④ 在这些后缀集合中递归地发现频繁模式的子集. 　　算法形式化描述如下：　　输入：序列数据库S 和最小支持度min sup. 　　输出：所有的序列模式. 　　方法：调用子程序PrefixSpan（， 0 ， S ）　　其中子程序PrefixSpan（ α， L ， S|α）描述如下：　　（1）扫描S|α，找到满足下述要求的长度为1 的序列模式b ：　　1） b可以添加到α的最后一个元素中并为序列模式；　　2） b可以作为α的最后一个元素并为序列模式. 　　（2）对每个生成的序列模式b ，将b添加到α形成序列模式α′，并输出α′；　　（3）对每个α′，构造α′的投影数据库S|α′，并调用子程序PrefixSpan （α′，L + 1，S|α′） .子程序参数说明：α为一个序列模式； L 为序列模式α的长度；