- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
序列模式挖掘综述讲解
序 列;内容概要;第6章 序 列 ;
序列是不同项集的有序排列。
定义1(序列):I={i1i2…im}是项集,ik(1=k=m)是一个项,序列S记为S=s1s2…sn,其中sj(1=j=n)为项集(也称序列S的元素),即sj?I。每个元素由不同项组成。序列的元素可表示为(i1i2…ik),若一个序列只有一个项,则括号可以省略。
序列包含的所有项的个数称为序列的长度。长度为l 的序列记为l -序列。;定义2(子序列):序列T=ti1ti2…tim是另一个序列S=s1s2…sn的子序列,满足下面条件:对于每一个j,1=j=m-1,有ijij+1 且 对于每一个j,1=j=m,存在1=k=n,使得tij?sk。即序列S包含序列T。用符号“?”表示“被包含于”,序列T是序列S的子序列可记为T?S。称T为S的子序列,S为T的超序列。
若一个序列S不包含在任何其他的序列之中,则称序列S是最大的。
;
定义3(支持度):序列数据库D是元组sid,S的集合,sid为序列标识号,如果序列T是S的子序列(即T?S)称元组sid,S包含序列T;则序列T在序列数据库D中的支持度是数据库中包含T的元组数,即supportD(T)=|{sid,S|sid,S?D?T?S }|记作support(T)。 ;
定义4(频繁序列模式):给定正整数?为支持度阈值,如果数据库中最少有?个元组包含序列S,即support(S)=?,则称序列S为序列数据库D中的一个(频繁)序列模式。
长度为l 的序列模式称为l –模式。
序列模式挖掘的任务就是找出数据库中所有的序列模式,即那些在序列集合中出现频率超过最小支持度(用户指定最小支持度阈值)的子序列。
;定义5: (序列关联规则)对于给定的项集I={i1i2…im}以及序列S,T,形如S?T的表达式称为序列关联规则。 ;置信度; ;交易发生的时间;客户标识
;客户号
;客户标识
; 核心算法; ; ;AprioriAll算法 ;3-序列
;序列
;AprioriSome算法 ;AprioriSome算法 ;1 2 3
;AprioriSome算法 ;序列
;类Apriori算法有以下缺点:
有可能生成庞大众多的候选序列。
多遍扫描数据库。
不易发生长度较大的序列模式。序列模式越长,所需要生成的序列就越多。 ;FreeSpan算法频繁模式投影的序列模式挖掘 Frequent pattern-projected Sequential pattern mining;FreeSpan算法 ; ; ;F矩阵图; ; ; ; FreeSpan算法;FreeSpan算法:给定序列数据库S及最小支持度阈值ζ。
1. 扫描序列数据库S,找到S中的频繁项集,并以降序排列生成f_list列表。
2. 执行下面步骤:
a.??? 第一遍扫描数据库S,构造频繁项矩阵;
b.??? 生成长度为2的序列模式及标记循环项模式和投影数据库;
c.??? 再次扫描数据库S,生成循环项模式和投影数据库;
d.??? 对生成的投影数据库递归调用矩阵投影挖掘算法挖掘更长的候选模式。
;PrefixSpan算法(通过前缀投影挖掘序列模式)
Prefix-projected Sequential pattern mining ;例: a(abc)(ac)d(cf);算法描述:
扫描序列数据库,生成所有长度为1的序列模式
根据长度为1的序列模式,生成相应的投影数据库
在相应的投影数据库上重复上述步骤,直到在相应
的投影数据库上不能产生序列模式为止; ;定义1. 投影数据库:设?为序列数据库S中的一个序列模式,则?的投影数据库为S中所有以?为前缀的序列相对于?的后缀,记为S|?
例: a—投影数据库,由4个后缀序列组成:(abc)(ac)d(cf),(_d)c(bc)(ae),(_b)(df)cb,(_f)cbc。
(ab)-投影数据库(_c)(ac)d(cf),
(df)cb; ; ; ;子程序PrefixSpan(?, L, S|?)
参数:? :一个序列模式 ;L:序列模式?的长度
S|? : 如果?不为空时,为?-投影数据库,否则为投影数据库S,
1 扫描S|?,找到频繁项b,b满足:
a)b可以作为?的最后一个元素,形成一个序列模式;或者
b)?b可以追加到?上,形成一个序列模式。
2)对于每个频繁项b,追加到?上,形成一个序列模式?’,输出?’;
3)对于每个?’,构建?’—投影数据库S|?’,调用Prefix
文档评论(0)