第8章---序列模式挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 应用AprioriAll算法例子(二) 序列 支持度 1 4 2 2 3 4 4 4 5 2 1序列模式 * 应用AprioriAll算法例子(三) 序列 支持度 1,2 2 1,3 4 3,5 2 4,5 2 * 应用AprioriAll算法例子(四) 序列 支持度 1,2,3 2 1,2,4 2 1,3,4 3 1,3,5 2 2,3,4 2 3序列模式 * 应用AprioriAll算法例子(五) 序列 支持度 1,2,3,4 2 4序列模式 至此算法结束,得到结果 * 类Apriori算法有以下缺点: 有可能生成庞大众多的候选序列。 多遍扫描数据库。 不易发生长度较大的序列模式。序列模式越长,所需要生成的序列就越多。 * PrefixSpan算法 相关定义 前缀:设每个元素中的所有项目按照字典序排列。给定序列? = e1e2…en,? = e1’ e2’… em’(m?n) ,如果ei’ = ei (i ? m - 1), em’ ? em,并且(em - em’)中的项目均在em’中项目的后面, 则称?是?的前缀 * 2001-8-15 * 第七章 序列模式挖掘 * 内容概要 基本概念 类Apriori生成候选算法 * 一、基本概念 1.定义 序列模式概念最早由Agrawal和Srikant 提出 序列模式与关联模式相仿,但它把数据之间的关联性与时间联系起来。 例如: 如“在购买彩电的人们中,60%的人会在3个月内购买影碟机” * 例子1:在两年前购买了Ford 牌轿车的顾客,很有可能在今年采取贴旧换新的购车行动 例子2:在购买了自行车和购物篮的所有客户中,有70%的客户会在两个月后购买打气筒 基本概念 * 事务发生的时间 客户id 购买项 2004.12.10 2004.12.12 2004.12.15 2004.12.20 2004.12.25 2004.12.25 2004.12.25 2004.12.30 2004.12.30 2004.12.31 2 5 2 2 4 3 1 1 4 4 10, 20 90 30 40,60,70 30 30,50,70 30 90 40,70 90 返回 * 符号化表示: 项目(Item): -----如前所示,顾客购买的商品就是项目 项目集(Itemset): ----各种项目组成的集合 序列(Sequence): 不同项目集的有序排列,序列s可以表示为: s = s1s2…sl,sj(1 = j = l)为项目集,也称为序列s的元素 如 S1= (I1,I2,I3), (I2,I3) 基本概念 * 序列的元素(Element): -----如 S1= (I1,I2,I3), (I2,I3) , I6 可表示为(x1x2…xm), xk (1 = k = m)为不同的项目,如果一个序列只有一个项目,则括号可以省略 序列的长度 -----一个序列包含的所有项目的个数 长度为l的序列记为l-序列 基本概念 * 序列 a1a2…an属于序列b1b2…bm 如果存在整数 i1i2..in 并且有 记作 a1a2…an ∠ b1b2…bm 基本概念 例如 (3)(4,5)(8)∠ (7)(3,8)(9)(4,5,6)(8) * 思考: (3,5)是否属于(3)(5)?? 注意:(3,5)并不属于(3)(5),反之亦然 因为后者代表项目3及5,是购买一个之后购买另外一个,而前者是代表两个一起购买 基本概念 * 序列?在序列数据库S中的支持数为序列数据库S中包含序列?的序列个数,记为Support(?) 给定支持度阈值?,如果序列?在序列数据库中的次数不低于?,则称序列?为序列模式 长度为l的序列模式记为l-模式

文档评论(0)

xiaohuer + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档