- 1、本文档共128页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验结果表明,SPADE算法的性能比GSP算法要高出2倍。 如果不考察产生2-序列的代价,极端情况下SPADE的性能将高出GSP一个数量级,理由是SPADE利用一个更加高效的基于id-list表结构的算法实现支持度计算。 而且SPADE算法利用格理论将原始搜索空间进行分解,除了为产生频繁1-序列和2-序列而扫描原始搜索空间外,其余的操作在每个序列的id-list表上独立执行,这样,在挖掘过程中,搜索空间逐渐变小。因此,SPADE对序列的数量呈现出线性可扩展性。 6.3 模式增长框架的序列挖掘算法 前面介绍的Apriori类算法的主要问题是产生大量候选集(例如,如果有100个频繁1-序列,产生候选2-序列个数为100×100+100×99/2,前者是形如ab的序列个数,其中a、b位置上均可以取100个项,后者是形如(ab)的序列个数,其中a、b不能重复出现,且(ab)和(ba)被认为是相同的)、多遍扫描数据库和大易挖掘长模式序列。 模式增长框架的算法基于分治的思想,迭代地将原始数据集进行划分,减少数据规模,不产生候选序列,同时在划分的过程中动态的挖掘序列模式,并将新发现的序列模式作为新的划分元。典型的代表有FreeSpan算法和PrefixSpan算法。 6.3.1 FreeSpan算法 FreeSpan(frequent pattern-projected sequential pattern mining,频繁模式投影的序列模式挖掘)算法是由Jiawei Han等于2000年提出的,它利用已产生的频繁集递归产生投影数据库,然后在投影数据库中增长子序列。 算法不仅可以挖掘所有序列模式,还减少了产生候选序列所需开销,提高算法效率。 FreeSpan算法执行的过程如下: (1)对于给定的序列数据库S及最小支持度阈值min_sup,首先扫描S,找到S中所有频繁项的集合,并以降序排列生成频繁项表即f-list表,设f-list=(x1,x2,…,xn)。 (2)将S中所有的序列模式集合可以划分成n个互不重叠的子集,即根据生成的f-list表把序列数据库S分成几个不相交的子集即i投影数据库: 只包含项x1的序列模式集合。 包含项x2,但不包含(x3,…,xn)中项的序列模式集合。 包含项x3,但不包含(x4,…,xn)中项的序列模式集合。 …… 包含项xn-1,但不包含项xn的序列模式集合。 包含项xn的序列模式集合。 (3)在xi投影数据库中通过扫描找出频繁2-序列集合,对于其中的每个频繁2-序列,再次扫描xi投影数据库生成该频繁2-序列的投影数据库,从中找出频繁3-序列集合,…依此类推,直到某个投影数据库中找不到更长的序列为止。 【例6.11】给定如表6.16所示的序列数据库S,全局项集I={a,b,c,d,e,f,g}(本节中序列采用简写方式,如eg(af)cbc序列是{e},{g},{a,f},{c},{b},{c}的简写形式,本节用小括号代替大括号表示,如果一个事件只有单个项,则省略括号)。假设最小支持度阈值min_sup为2。下面给出用FreeSpan算法求序列模式的过程。 {a,b,c,e,f,g} eg(af)cbc 40 {a,b,c,d,e,f} (ef)(ab)(df)cb 30 {a,b,c,d,e} (ad)c(bc)(ae) 20 {a,b,c,d,f} a(abc)(ac)d(cf) 10 序列的项集 序列 SID 第一次扫描序列数据库,找出所有的频繁项,并将这些频繁项按支持度递减排序构成一个频繁项表,即: f-list= f-list=(a:4,b:4,c:4,d:3,e:3,f:3) 这样生成6个长度为1的频繁序列:a:4,b:4,c:4,d:3,e:3,f:3,其中“模式:计数”表示模式和它的支持度计数。 然后将序列数据库按α投影操作划分成6个互不重叠的子数据库。α投影数据库是由那些包含α且不包含任何非频繁项,也不包含在f-list表中居于α之后项的序列所组成的数据库。 例如,对于频繁项e,初始时e投影数据库为空,扫描序列数据库S,第1个序列中不含有e,不予考虑;第2个序列含有e,从中删除所有f项得到(ad)c(bc)(ae),将其加入到e投影数据库中;第3个序列含有e,从中删除所有f项得到e(ab)dcb,将其加入到e投影数据库中;第4个序列含有e,从中删除所有f项和不频繁项g得到eacbc,将其加入到e投影数据库中。 得到的6个投影数据库及其序列如表6.17所示。 a(abc)(ac)d(cf) (ef)(ab)(df)cb e(af)cbc 包含f a(abc)(ac)c ac(bc)a (ab)cb acbc 包含c但不包含
您可能关注的文档
- 第5章___有线电视系统讲解.ppt
- 第5章__排水固结讲解.ppt
- 第5章__强夯法与强夯置换法_讲解.ppt
- 第5章__生物反应器的传递与混合特性讲解.ppt
- 第5章_报表_(未来教育_全国计算机等级考试_二级Access_配套)讲解.ppt
- 第5章_筹资决策讲解.ppt
- 第5章_高层建筑结构设计_剪力墙结构设计讲解.ppt
- 第5章_环境保护催化与环境友好催化技术讲解.ppt
- 第5章_混合结构房屋墙体设计(学生用)讲解.ppt
- 第5章_螺纹讲解.ppt
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
最近下载
- GB 55021-2021 既有建筑鉴定与加固通用规范.pdf VIP
- 非煤矿山安全生产执法检查方案.pptx
- 3DMax中英文对照表2.doc
- 2024年四川省德阳市中考生物试题卷(含答案解析).docx
- 苏教版四下简便计算练习题.doc VIP
- 北京市第一零一中学2023-2024学年八年级下学期期中数学试题(原卷版).pdf VIP
- 2025年单招生活常识题目答案大全 .pdf VIP
- 湖北省武汉市2025届高三上学期元月调考数学试题(学生版+解析版).docx
- 卡萨帝 洗衣机 双子云裳洗干一体机 C8 HU12G1 使用说明.pdf
- 2023届高考英语新时政热点阅读 10 人工智能(含解析).docx
文档评论(0)