第7章-序列模式挖掘.pptVIP

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章-序列模式挖掘

2001-8-15 第七章 序列模式挖掘 内容概要 一、基本概念 1.定义 序列模式概念最早由Agrawal和Srikant 提出 序列模式与关联模式相仿,但它把数据之间的关联性与时间联系起来。 例如: 如“在购买彩电的人们中,60%的人会在3个月内购买影碟机” 基本概念 例子1:在两年前购买了Ford 牌轿车的顾客,很有可能在今年采取贴旧换新的购车行动 例子2:在购买了自行车和购物篮的所有客户中,有70%的客户会在两个月后购买打气筒 基本概念 符号化表示: 项目(Item): -----如前所示,顾客购买的商品就是项目 项目集(Itemset): ----各种项目组成的集合 序列(Sequence): 不同项目集的有序排列,序列s可以表示为: s = s1s2…sl,s j (1 = j = l)为项目集, 也称为序列s的元素 如 S1= (I1,I2,I3) (I2,I3) 基本概念 序列的元素(Element): -----如 S1= (I1,I2,I3) (I2,I3) I6 序列的长度 -----一个序列包含的所有项目的个数 长度为l的序列记为l-序列 序列 a1a2…an属于序列b1b2…b m 如果存在整数 i1i2..in 并且有 记作 a1a2…an ∠ b1b2…b m 基本概念 思考: (3,5)是否属于(3)(5)?? 注意:(3,5)并不属于(3)(5),反之亦然 因为后者代表项目3及5,是购买一个之后购买另外一个,而前者是代表两个一起购买 序列?在序列数据库S中的支持数为序列数据库S中包含序列?的序列个数,记为Support(?) 给定支持度阈值?,如果序列?在序列数据库中的次数不低于?,则称序列?为序列模式 长度为l的序列模式记为l-模式 例子3:设序列数据库如下图所示,并设用户指定的最小支持度min-support = 2。 例子4:对于开始的数据表,可以得到它的客户序列如下 设最小支持度为25%,即最小支持计数(5x25%=1.25,取上整为2) 可以看出两个序列(30)(90)(30)(40,70)满足最小支持度 不满足最小支持度的序列之一是(10,20)(30) 2. 应用领域: 客户购买行为模式预测 Web访问模式预测 疾病诊断 自然灾害预测 DNA序列分析 故障诊断系统 …… 应用案例3:疾病诊断 例: 通过分析大量曾患A类疾病的病人发病纪录,发现以下症状发生的序列模式: (眩晕) (两天后低烧37-38度) 如果病人具有以上症状,则有可能患A类疾病 3. 问题描述: 给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式 4. 系统规定: 由于同一个元素中的项目之间排列没有顺序,为了表达的唯一性,我们将同一个元素内部的不同项目按照字典顺序排列 (1) 排序阶段 利用客户标识customer-id作为主关键字以及事务发生时间transaction-time作为次关键字对数据库D排序 该步骤将原始的事务数据库转换成客户序列的数据库 需要将每一个顾客序列转换成一个替换的代表 在一个已经转换的客户序列中,每一个事务被包含于该事物中的所有频繁项目集来替换 如果一个序列不包含任何频繁项目集,则在已经转换的序列中就不应该保留这项事务 序列阶段算法 给出的算法分为两个系列: count-all和count-some 通用结构是遍历数据多遍,在每一遍都利用一个频繁序列的种子集合作为开始,利用种子集合来产生新的潜在频繁序列,称作候选序列(Candidate Sequence) 两个系列 count-all AprioriAll算法 count-some AprioriSome算法和DynamicSome算法 类Apriori算法---AprioriAll算法 在每一遍中都利用前一遍的频繁序列产生候选序列,然后在完成遍历整个数据库后测试它们的支持度。 遍历结束时,候选者的支持度用来确定频繁序列。 在第一遍, 输出用来初始化1序列模式的集合 AprioriAll候选序列的产生 (1) 首先进行 Lk-1 与 Lk-1 的连接运算 比如1,2,3与1,2,4连接成为1,2,3,4 要注意的是1,2,3,4和1

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档