用闭合序列模式实现特征子串的发现研究.docxVIP

下载本文档

7
0
约6.68千字
约 4页
2017-12-31 发布于江西
举报
版权申诉

用闭合序列模式实现特征子串的发现研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用闭合序列模式实现特征子串的发现研究

文章编号：1007-1423（2015）18-0020-04DOI：10.3969/j.issn.1007-1423.2015.18.005用闭合序列模式实现特征子串的发现研究杜翠兰，鲁睿，付戈，赵淳璐，钮艳(国家计算机网络与信息安全管理中心，北京 100017)摘要：序列模式作为数据挖掘中的重要分支之一，已在众多领域中得到广泛的应用，而闭合序列模式针对频繁模式较长或者支持度阈值较低时，相比传统的序列模式挖掘更加精简有效。 CloSpan 算法作为闭合序列模式挖掘中性能优的算法之一，采用闭合模式挖掘算法对未识别数据集中的特征子串发现的问题进行实例论证，证明其高效性。关键词：序列模式；数据挖掘；特征子串0 引言序列模式研究是数据挖掘中的一个重要子课题，它主要是指从相对于时间或者其他元素排列的数据中挖掘出出现次数满足用户定义支持数阈值的序列模式的过程，在生物基因学、文本检索、金融股票分析等领域已经取得了广泛的应用，序列模式严格区别于关联规则，最大的区别在于序列模式严格按照时间序列或者其他因素严格排序，同时，按照序列模式挖掘到的结果也必须按序排列。序列模式可以定义为用户设定的一个阈值 δ，挖掘出指定序列数据中所有支持数不小于 δ 的有序队列，这些序列被称为序列模式[4～5]。CloSpan 算法作为序列模式中的一种闭合序列模式算法，根据文献[1]中研究可知当所挖掘序列长度很长并且阈值低的时候 CloSpan 算法明显优于 PrefixSpan 等算法，本文主要通过 CloSpan 算法对数据集中未识别数据的特殊子串发现的问题进行了性能的分析。1 CIoSpan 算法及 PrefixSpan 算法介绍频繁闭项集定义：是指项集 Y 是频繁的，不存在 Y 的一个超集，使得 Y 的支持度等于超集的支持度，那么 Y 就是一个频繁闭项集。频繁闭项集性质：对于一个频繁项集，如果存在与其支持度相等的超集，那么该频繁项集一定不是频繁闭项集；反之，则一定是频繁闭项集。PrefixSpan 算法描述如下：Input : projected database SD，he minimum support thresh- old（min_sup）；Output : all frequent sequential pattern for projected database SD;Method : CALL PrefixSpan( ，0，SD )Procedufe PrefixSpan(a，l，SD|a)／ *a: one sequence pattern; L: the length of sequence pat- tern a; SD |a: if a not equal to , SD |a as one projected database of a, otherwise,SD|a=SD* ／算法描述如下：{Begin ：（1） Scanning SD |a， finding frequent item b to meet the following conditions：Adding b into the last elements of a format the sequence mode called frequent sequential pattern; and making the (b) as the last element of a format the sequence mode called fre- quent pattern.（2） For any condition (1) project b, b will be added to the a after the formation of frequent sequential patterns is a, output a;（3） For each a’, structure projected database SD|a of a;（4） For all SD|a;（5） CALL PrefixSpan(a’，L+1，SD|a’) end}PrefixSpan 算法引入了投影数据库思想，相比传统的数据挖掘方法已经逐步将数据库规模缩小，但它主要是针对于频繁短序列模式，对于频繁较长序列模式或者最小支持度较小时，它所得出的频繁序列数量