序 列.pptVIP

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序 列

序 列 内容概要 序列是不同项集的有序排列。 定义1(序列):I={i1i2…im}是项集,ik(1=k=m)是一个项,序列S记为S=s1s2…sn,其中sj(1=j=n)为项集(也称序列S的元素),即sj?I。每个元素由不同项组成。序列的元素可表示为(i1i2…ik),若一个序列只有一个项,则括号可以省略。 序列包含的所有项的个数称为序列的长度。长度为l 的序列记为l -序列。 子 序 列 定义2(子序列):序列T=ti1ti2…tim是另一个序列S=s1s2…sn的子序列,满足下面条件:对于每一个j,1=j=m-1,有ijij+1 且 对于每一个j,1=j=m,存在1=k=n,使得tij?sk。即序列S包含序列T。用符号“?”表示“被包含于”,序列T是序列S的子序列可记为T?S。称T为S的子序列,S为T的超序列。 若一个序列S不包含在任何其他的序列之中,则称序列S是最大的。 定义3(支持度):序列数据库D是元组sid,S的集合,sid为序列标识号,如果序列T是S的子序列(即T?S)称元组sid,S包含序列T;则序列T在序列数据库D中的支持度是数据库中包含T的元组数,即supportD(T)=|{sid,S|sid,S?D?T?S }|记作support(T)。 定义4(频繁序列模式):给定正整数?为支持度阈值,如果数据库中最少有?个元组包含序列S,即support(S)=?,则称序列S为序列数据库D中的一个(频繁)序列模式。 长度为l 的序列模式称为l –模式。 序列模式挖掘的任务就是找出数据库中所有的序列模式,即那些在序列集合中出现频率超过最小支持度(用户指定最小支持度阈值)的子序列。 AprioriAll算法 AprioriAll算法 AprioriAll算法 AprioriSome算法 AprioriSome算法 AprioriSome算法 AprioriSome算法 AprioriSome算法 类Apriori算法有以下缺点: 有可能生成庞大众多的候选序列。 多遍扫描数据库。 不易发生长度较大的序列模式。序列模式越长,所需要生成的序列就越多。 FreeSpan算法频繁模式投影的序列模式挖掘 Frequent pattern-projected Sequential pattern mining FreeSpan算法 F矩阵图 2 (1,1,0) (0,0,0) (1,1,0) (1,1,0) (2,2,2) 1 (1,1,1) (1,0,1) (1,1,2) (3,1,1) 1 (1,2,1) (2,2,0) (2,2,2) 2 (2,1,1) (3,2,0) 1 (4,3,0) 4 1b 2c 3a 4d 5e 6f 1b 2c 3a 4d 5e 6f F[j,j] 仅有一个计数值, F[j,k] 有三个计数值:(A,B,C) ijikikij (ikij) 序列 (bd)cb(ac) (bf)(ce)b(fg) (ah)(bf)abf (be)(ce)d a(bd)bcb(ade) FreeSpan算法 2.B.生成长度为2的序列模式 标记循环项模式和投影数据库; 循环项模式标记形如$αiγαjγ$,其中$…$表示两种形式…,{…}。 投影数据库标记形如$αiαj$:{bp,…,bq},{bp,…,bq}表示在子序列挖掘过程中与$αiαj$合在一起生成长度更长的序列模式的频繁项集。 FreeSpan算法 Φ b b+ bb:4 b …… …… …… c …… …… …… a da: {bc} {cd}: {b} {b+ d } d a+ bd:2, db:2, (bd):2 cd:2, dc:2, da:2 d (ce):{b} b+ e be:3,(ce):2 e Φ {b+ f+ } bf:2,fb:2,(bf):2 f 投影数据库标记 循环项标记 长度为2的序列模式 项 FreeSpan算法 2.C.再次扫描数据库S,生成循环项模式和投影数据库; {b+ f+ }b+ e {b+ d } d a+ b b+ {bbf:2,fbf:2,(bf)b:2,(bf)(bf):2, (bd)b:2,bba:2,aba:2,aba:2, abb:2,bcb:2,bbc:2} 四个投影数据库如下图: * * 报告人:熊 赟 基本概念 其他 类Apriori生成候选算法 相似性搜索

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档