- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列的模式数据挖掘算法的研究
序列的模式数据挖掘算法的研究
摘 要: 序列模式的发现是数据挖掘领域一个活跃的研究分支,即在序列数据库中找出所有的频繁子序列。本文先介绍序列模式挖掘中的一些基本概念,然后详细描述FreeSpan和PrefixSpan2个基于投影、分治的模式增长的重要算法。
关键词:序列模式;算法
一、基本术语和定义
设I= {i1,i2,……,in}是一个项目集合,项目集或者项集(items) 就是各种项目组成的集合,即I 的所有子集。一个序列就是若干项集的有序列表,一个序列S可表示为〈s1,s2,……,sn〉,其中sj为项集,也称作S的元素。元素由不同的项组成,可表示为(x1,x2,……,xn)。当元素只包含一项时, 一般省去括号,如(x2)一般表示为x2。元素之间是有顺序的,但元素内的项是无序的,一般定义为词典序。序列包含项的个数称为序列的长度, 长度为L的序列记为L- 序列. 序列数据库就是元组(tuples)〈sid, s 〉的集合, 其中s是序列,sid 是该序列的序列号,元组的个数称为序列数据库的大小, 记作|SDB|。
1、 FreeSpan算法思想
FreeSpan ,即频繁模式投影的序列模式挖掘,其基本思想为:利用频繁项递归地将序列数据库投影到更小的投影数据库集中,在每个投影数据库中生成子序列片段.这一过程对数据和待检验的频繁模式集进行了分割,并且将每一次检验限制在与其相符合的更小的投影数据库中.
2、FreeSpan 算法分析:
它将频繁序列和频繁模式的挖掘统一起来,把挖掘工作限制在投影数据库中,还能限制序列分片的增长.它能有效地发现完整的序列模式,同时大大减少产生候选序列所需的开销,比基于Apriori 的GSP算法快很多.不足之处,它可能会产生许多投影数据库,如果一个模式在数据库中的每个序列中出现,该模式的投影数据库将不会缩减;另外,一个长度为k 的序列可能在任何位置增长,那么长度为k + 1的候选序列必须对每个可能的组合情况进行考察,这样所需的开销是比较大的. 对FreeSpan 中频繁项矩阵F占用存储空间的定量分析如下:设序列数据库中有m个频繁项,频繁项矩阵共需要|M|= m +32×(m-1)×(m-2) 个计数单元。例如,m=1000,|M|=1.5×106=3Mb(假设每个计数单元占用2b 的空间) ,目前一般的计算机就很容易满足这个要求[4]。
3、PrefixSpan算法的提出
在许多应用中,如DNA分析和股市序列分析等,数据库常包含大量的序列模式,而且许多模式很长,此时有必要重新审视序列模式挖掘问题,以探索一些更加有效、易于扩展的方法.通过观察发现,基于Apriori算法的瓶颈在于每一步的候选集生成和测试,能否找到一种方法,既能吸取Apriori的灵魂又能避免或者充分减少昂贵的候选集生成和测试.顺着这个思路, PeiJian ,Han Jiawei 及Wang Jianyong 等人基于分治和模式扩展的原理提出了模式扩展方法,代表性的算法有FreeSpan 和PrefixSpan ,其中PrefixSpan改进法采用了伪投影技术,性能比FreeSpan 好.下面描述并分析PrefixSpan 算法.
4、 PrefixSpan 算法思想及描述
该算法就是通过前缀投影来挖掘序列模式, 进行投影时, 并不考虑所有出现的频繁子序列, 而是找出前缀序列, 把相应的后缀投影成为一系列的投影数据库. 对于每一个投影数据库, 只须找出局部频繁模式, 且不产生候选码, 它的主要步骤如下:
① 扫描数据库一次,找出频繁L2序列, 假设为k个;
② 划分研究空间: 把完整的序列模式划分为k个研究空间, 分别以频繁L2序列为前缀;
③ 构造相应的数据库,也就是对应前缀的后缀集合;
④ 在这些后缀集合中递归地发现频繁模式的子集.
算法形式化描述如下:
输入: 序列数据库S 和最小支持度min sup.
输出: 所有的序列模式.
方法:调用子程序PrefixSpan( , 0 , S )
其中子程序PrefixSpan( α, L , S|α) 描述如下:
(1) 扫描S|α,找到满足下述要求的长度为1 的序列模式b :
1) b可以添加到α的最后一个元素中并为序列模式;
2) b可以作为α的最后一个元素并为序列模式.
(2) 对每个生成的序列模式b ,将b添加到α形成序列模式α′,并输出α′;
(3) 对每个α′,构造α′的投影数据库S|α′,并调用子程序PrefixSpan (α′,L + 1,S|α′) .子程序参数说明:α为一个序列模式; L 为序列模式α的长度;
您可能关注的文档
- 广西海岸带陆海资源过渡区域不动产登记融合的研究.doc
- 广西涉外导游培养的策略的研究.doc
- 广西深水抗风浪网箱养殖的现状分析及建议.doc
- 广西滇桂黔石漠化连片特困区智力扶贫对策的研究.doc
- 广西滇桂黔石漠化连片特困区智力扶贫若干问题的研究.doc
- 广西港航强桂战略的研究.doc
- 广西滨海公路施工的环境保护措施.doc
- 广西灌阳县“一季+再生稻”栽培性状表现及一体化栽培技术的要点.doc
- 广西火龙果产业发展的现状及可持续发展对策的研究.doc
- 广西灌阳县月岭村古民居的现状的研究.doc
- 2025及未来5年高效胶硫除尘设备项目投资价值分析报告.docx
- 武汉市编外教师招聘职业能力教育综合知识题库(含真题精选).docx
- 小初衔接语文 暑假必刷专项训练01 基础知识积累与运用试题卷.docx
- 冬季安全教育班会课件.ppt
- (18页PPT)如何将法务管理水平转化为公司核心竞争力.pptx
- (49页PPT)雨屋展活动策划方案.ppt
- 2025及未来5-10年不锈钢线隙式过滤器项目投资价值市场数据分析报告.docx
- 外研社版英语七年级下册Unit 2 This morning we took a walk.练习题.docx
- 2025及未来5年快速润滑脂项目投资价值分析报告.docx
- 外研社版英语七年级下册Unit 2 We're going to cheer the players.练习题.docx
原创力文档


文档评论(0)