第8序列模式挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8序列模式挖掘

* 应用AprioriAll算法例子(四) 序列 支持度 1,2,3 2 1,2,4 2 1,3,4 3 1,3,5 2 2,3,4 2 3序列模式 * 应用AprioriAll算法例子(五) 序列 支持度 1,2,3,4 2 4序列模式 至此算法结束,得到结果 * 类Apriori算法有以下缺点: 有可能生成庞大众多的候选序列。 多遍扫描数据库。 不易发生长度较大的序列模式。序列模式越长,所需要生成的序列就越多。 * PrefixSpan算法 相关定义 前缀:设每个元素中的所有项目按照字典序排列。给定序列? = e1e2…en,? = e1’ e2’… em’(m?n) ,如果ei’ = ei (i ? m - 1), em’ ? em,并且(em - em’)中的项目均在em’中项目的后面, 则称?是?的前缀 * 投影:给定序列?和? ,如果?是?的子序列,则?关于?的投影?’必须满足: ?是?’的前缀,?’是?的满足上述条件的最大子序列 后缀: 序列?关于子序列? = e1e2… em-1em’的投影为?’ = e1e2… en (n = m),则序列?关于子序列?的后缀为em”em+1… en, 其中em” = (em - em’) * 三、PrefixSpan算法 例子: a(abc)(ac)d(cf) a aa a(ab) a(abc) -(abc)(ac)d(cf) (_bc)(ac)d(cf) ab (_c)(ac)d(cf) * 三、PrefixSpan算法 算法描述: 扫描序列数据库,生成所有长度为1的序列模式 根据长度为1的序列模式,生成相应的投影数据库 在相应的投影数据库上重复上述步骤,直到在相应的投影数据库上不能产生长度为1的序列模式为止 S S1 … Sm S11 …… … S1n …… Sm1 …… … Smp …… * 三、PrefixSpan算法 扫描序列数据库S,产生长度为1的序列模式有:a : 4, b:4, c : 4, d : 3, e : 3, f : 3 序列模式的全集必然可以分为分别以a,b,c,d,e和f为前缀的序列模式的集合,构造不同前缀所对应的投影数据库,结果如下页图所示 分别对不同的投影数据库重复上述过程,直到没有新的长度为1的序列模式产生为止 Sequence_id Sequence 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc * 三、PrefixSpan算法 Prefix Project Database a (abc)(ac)d(cf) (_d)c(bc)(ae) (_b)(df)cb (_f)cbc b (_c)(ac)d(cf) (_c)(ae) (df)cb c c (ac)d(cf) (bc)(ae) b bc d (cf) c(bc)(ae) (_f)cb e (_f)(ab)(df)cb (af)cbc f (ab)(df)cb cbc Sequence_id Sequence 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc * 三、PrefixSpan算法 定义1. 投影数据库:设?为序列数据库S中的一个序列模式,则?的投影数据库为S中所有以?为前缀的序列相对于?的后缀,记为S|? 定义2. 投影数据库中的支持数:设?为序列数据库S中的一个序列模式,序列?以?为前缀,则?在?的投影数据库S|?中的支持数为S|?中满足条件? ? ?.?的序列?的个数 * 三、PrefixSpan算法 PrefixSpan算法 输入:序列数据库S及最小支持度阈值min_sup 输出:所有的序列模式 方法:调用子程序PrefixSpan(, 0, S) * 三、PrefixSpan算法 子程序PrefixSpan(?, L, S|?) 参数:? . 一个序列模式 L. 序列模式?的长度 S|? . 如果?为空,则为S,否则为?的投影数据库 扫描S|?,找到满足下述要求的长度为1的序列模式b: b可以添加到?的最后一个元素中并为序列模式 b可以作为?的最后一个元素并为序列模式 对每个生成的序列模式b,将b添加到?形成序列模式?’,并输出?’ 对每个?’,构造?’的投影数据库S|?’ ,并调用子程序PrefixSpan(?’, L + 1, S|?’) * 三、PrefixSpan算法 PrefixSpan算法分析: PrefixSpan算法不需要产生候选序列模式,从而大

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档