序列模式挖掘算法 数据挖掘课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2001-8-15 序列模式挖掘算法简介 报告人:邓爱林 报告的主要内容 序列模式简介 GSP算法 PrefixSpan算法 一、序列模式简介 序列模式的概念最早是由Agrawal和Srikant 提出的 序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值 一、序列模式简介 例子1:在两年前购买了Ford 牌轿车的顾客,很有可能在今年采取贴旧换新的购车行动 例子2:在购买了自行车和购物篮的所有客户中,有70%的客户会在两个月后购买打气筒 一、序列模式简介 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 一、序列模式简介 符号化表示: 项目集(Itemset)是各种项目组成的集合 序列(Sequence)是不同项目集(ItemSet)的有序排列,序列s可以表示为s = s1s2…sl,sj(1 = j = l)为项目集(Itemset),也称为序列s的元素 序列的元素(Element)可表示为(x1x2…xm), xk(1 = k = m)为不同的项目,如果一个序列只有一个项目,则括号可以省略 一个序列包含的所有项目的个数称为序列的长度。长度为l的序列记为l-序列 一、序列模式简介 符号化表示: 设? = a1a2…an,? = b1b2…bm,如果存在整数1 = j1 j2 … jn = m,使得a1 ? bj1,a2 ? bj2,…, an ? bjn,则称序列?为序列?的子序列,又称序列?包含序列?,记为? ? ? 序列?在序列数据库S中的支持数为序列数据库S中包含序列?的序列个数,记为Support(?) 给定支持度阈值?,如果序列?在序列数据库中的支持数不低于?,则称序列?为序列模式 长度为l的序列模式记为l-模式 一、序列模式简介 例子:设序列数据库如下图所示,并设用户指定的最小支持度min-support = 2。 一、序列模式简介 问题描述:给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式 系统规定:由于同一个元素中的项目之间排列没有顺序,为了表达的唯一性,我们将同一个元素内部的不同项目按照字典顺序排列 一、序列模式简介 序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法:类似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法:采用分治的思想,不断产生序列数据库的多个更小的投影数据库,然后在各个投影数据库上进行序列模式挖掘 一、序列模式简介 上述算法存在的主要问题: 缺少时间限制:用户可能需要指定序列模式的相邻元素之间的时间间隔。例如,一个序列模式可能会发现客户在购买了物品A后的第三年购买物品B。我们需要的却是给定时间间隔内用户的购买意向 事务的定义过于严格:一个事务中包含在客户的一次购买行为中所购买的所有物品。可能需要指定一个滑动时间窗口,客户在滑动时间窗口的时间段内的所有的购买行为均作为一个事务 缺少分类层次:只能在项目的原始级别上进行挖掘 二、GSP算法 GSP算法描述: 扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集 根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持数,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集 重复第二步,直到没有新的序列模式或新的候选序列模式产生为止 二、GSP算法 产生候选序列模式主要分两步: 连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1于s2进行连接,即将s2的最后一个项目添加到s1中 剪切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除 二、GSP算法 例子:下图演示了如何从长度为3的序列模式产生长度为4的候选序列模式 二、GSP算法 候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列d,找出集合C中被d所包含的所有候选序列模式,并增加其支持度计数 二、GSP算法 GSP算法存在的主要问题: 如果序列数据库的规模比较大,则有可能会产生大量的候选序列模式 需要对序列数据库进行循环扫描 对于序列模式的长度比较长的情况,由于其对应的短的序列模式规模太大,本算法很难处理 三、PrefixSpan算法 相关定

您可能关注的文档

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档