- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
序 列 内容概要 序列是不同项集的有序排列。 定义1(序列):I={i1i2…im}是项集,ik(1=k=m)是一个项,序列S记为S=s1s2…sn,其中sj(1=j=n)为项集(也称序列S的元素),即sj?I。每个元素由不同项组成。序列的元素可表示为(i1i2…ik),若一个序列只有一个项,则括号可以省略。 序列包含的所有项的个数称为序列的长度。长度为l 的序列记为l -序列。 子 序 列 定义2(子序列):序列T=ti1ti2…tim是另一个序列S=s1s2…sn的子序列,满足下面条件:对于每一个j,1=j=m-1,有ijij+1 且 对于每一个j,1=j=m,存在1=k=n,使得tij?sk。即序列S包含序列T。用符号“?”表示“被包含于”,序列T是序列S的子序列可记为T?S。称T为S的子序列,S为T的超序列。 若一个序列S不包含在任何其他的序列之中,则称序列S是最大的。 定义3(支持度):序列数据库D是元组sid,S的集合,sid为序列标识号,如果序列T是S的子序列(即T?S)称元组sid,S包含序列T;则序列T在序列数据库D中的支持度是数据库中包含T的元组数,即supportD(T)=|{sid,S|sid,S?D?T?S }|记作support(T)。 定义4(频繁序列模式):给定正整数?为支持度阈值,如果数据库中最少有?个元组包含序列S,即support(S)=?,则称序列S为序列数据库D中的一个(频繁)序列模式。 长度为l 的序列模式称为l –模式。 序列模式挖掘的任务就是找出数据库中所有的序列模式,即那些在序列集合中出现频率超过最小支持度(用户指定最小支持度阈值)的子序列。 AprioriAll算法 AprioriAll算法 AprioriAll算法 AprioriSome算法 AprioriSome算法 AprioriSome算法 AprioriSome算法 AprioriSome算法 类Apriori算法有以下缺点: 有可能生成庞大众多的候选序列。 多遍扫描数据库。 不易发生长度较大的序列模式。序列模式越长,所需要生成的序列就越多。 FreeSpan算法频繁模式投影的序列模式挖掘 Frequent pattern-projected Sequential pattern mining FreeSpan算法 F矩阵图 2 (1,1,0) (0,0,0) (1,1,0) (1,1,0) (2,2,2) 1 (1,1,1) (1,0,1) (1,1,2) (3,1,1) 1 (1,2,1) (2,2,0) (2,2,2) 2 (2,1,1) (3,2,0) 1 (4,3,0) 4 1b 2c 3a 4d 5e 6f 1b 2c 3a 4d 5e 6f F[j,j] 仅有一个计数值, F[j,k] 有三个计数值:(A,B,C) ijikikij (ikij) 序列 (bd)cb(ac) (bf)(ce)b(fg) (ah)(bf)abf (be)(ce)d a(bd)bcb(ade) FreeSpan算法 2.B.生成长度为2的序列模式 标记循环项模式和投影数据库; 循环项模式标记形如$αiγαjγ$,其中$…$表示两种形式…,{…}。 投影数据库标记形如$αiαj$:{bp,…,bq},{bp,…,bq}表示在子序列挖掘过程中与$αiαj$合在一起生成长度更长的序列模式的频繁项集。 FreeSpan算法 Φ b b+ bb:4 b …… …… …… c …… …… …… a da: {bc} {cd}: {b} {b+ d } d a+ bd:2, db:2, (bd):2 cd:2, dc:2, da:2 d (ce):{b} b+ e be:3,(ce):2 e Φ {b+ f+ } bf:2,fb:2,(bf):2 f 投影数据库标记 循环项标记 长度为2的序列模式 项 FreeSpan算法 2.C.再次扫描数据库S,生成循环项模式和投影数据库; {b+ f+ }b+ e {b+ d } d a+ b b+ {bbf:2,fbf:2,(bf)b:2,(bf)(bf):2, (bd)b:2,bba:2,aba:2,aba:2, abb:2,bcb:2,bbc:2} 四个投影数据库如下图: * * 报告人:熊 赟 基本概念 其他 类Apriori生成候选算法 相似性搜索
您可能关注的文档
- 附录A 多传感器图象信息融合 图像工程(第2版)下册图像理解教学课件.ppt
- 附录B 人脸和表情识别 图像工程(第2版)下册图像理解教学课件.ppt
- 附录C 基于内容的图象和视频检索 图像工程(第2版)下册图像理解教学课件.ppt
- 第1章 绪论 图像工程(第2版)中册_图像分析教学课件.ppt
- 第2章 相关图象基础 图像工程(第2版)中册_图像分析教学课件.ppt
- 第3章 数字化的图象 图像工程(第2版)中册_图像分析教学课件.ppt
- 第4章 图象分割基础 图像工程(第2版)中册_图像分析教学课件.ppt
- 第5章 特色分割算法 图像工程(第2版)中册_图像分析教学课件.ppt
- 第1章-导论 国际经济学课件.ppt
- 第6章 分割技术扩展 图像工程(第2版)中册_图像分析教学课件.ppt
最近下载
- 2024年新人教道德与法治一年级上册全册教学课件(新版教材).pptx
- 一种去除皮革醛类VOCs的方法.pdf VIP
- 党员发展对象思想汇报.doc VIP
- 07 文言文四类实词积累方法(文言文阅读)-2026年高考语文一轮复习之古诗文专题课件(全国通用).pptx
- 网御网络审计系统V3.0用户使用手册.doc.pdf VIP
- 泥水工劳务承包合同(2024版).docx VIP
- 初三英语完形填空十篇(含答案).docx VIP
- 球磨机设计完整版.doc VIP
- 2024年《关于加快经济社会发展全面绿色转型的意见》学习解读课件.pptx VIP
- DB44_T 2693-2025电化学储能电站安全管控技术规范.pdf VIP
文档评论(0)