第7章-序列模式挖掘.pptVIP

下载本文档

1
0
约8.56千字
约 55页
2018-03-08 发布于河北
举报
版权申诉

第7章-序列模式挖掘.ppt

1、本文档共55页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第7章-序列模式挖掘

2001-8-15 第七章序列模式挖掘内容概要一、基本概念 1.定义序列模式概念最早由Agrawal和Srikant 提出序列模式与关联模式相仿，但它把数据之间的关联性与时间联系起来。例如: 如“在购买彩电的人们中，60%的人会在3个月内购买影碟机” 基本概念例子1：在两年前购买了Ford 牌轿车的顾客，很有可能在今年采取贴旧换新的购车行动例子2：在购买了自行车和购物篮的所有客户中，有70%的客户会在两个月后购买打气筒基本概念符号化表示：项目(Item)： -----如前所示，顾客购买的商品就是项目项目集(Itemset): ----各种项目组成的集合序列(Sequence): 不同项目集的有序排列，序列s可以表示为: s = s1s2…sl，s j (1 = j = l)为项目集，也称为序列s的元素如 S1= (I1,I2,I3) (I2,I3) 基本概念序列的元素(Element): -----如 S1= (I1,I2,I3) (I2,I3) I6 序列的长度 -----一个序列包含的所有项目的个数长度为l的序列记为l-序列序列 a1a2…an属于序列b1b2…b m 如果存在整数 i1i2..in 并且有记作 a1a2…an ∠ b1b2…b m 基本概念思考: (3,5)是否属于(3)(5)?? 注意:(3,5)并不属于(3)(5),反之亦然因为后者代表项目3及5,是购买一个之后购买另外一个，而前者是代表两个一起购买序列?在序列数据库S中的支持数为序列数据库S中包含序列?的序列个数，记为Support(?) 给定支持度阈值?，如果序列?在序列数据库中的次数不低于?，则称序列?为序列模式长度为l的序列模式记为l-模式例子3：设序列数据库如下图所示，并设用户指定的最小支持度min-support = 2。例子4:对于开始的数据表，可以得到它的客户序列如下设最小支持度为25%，即最小支持计数（5x25%=1.25，取上整为2）可以看出两个序列(30)(90)(30)(40,70)满足最小支持度不满足最小支持度的序列之一是(10,20)(30) 2. 应用领域：客户购买行为模式预测 Web访问模式预测疾病诊断自然灾害预测 DNA序列分析故障诊断系统 …… 应用案例3：疾病诊断例: 通过分析大量曾患A类疾病的病人发病纪录，发现以下症状发生的序列模式： (眩晕) (两天后低烧37-38度) 如果病人具有以上症状，则有可能患A类疾病 3. 问题描述：给定序列数据库和最小支持度阈值，序列模式挖掘就是要找出序列数据库中所有的序列模式 4. 系统规定：由于同一个元素中的项目之间排列没有顺序，为了表达的唯一性，我们将同一个元素内部的不同项目按照字典顺序排列 (1) 排序阶段利用客户标识customer-id作为主关键字以及事务发生时间transaction-time作为次关键字对数据库D排序该步骤将原始的事务数据库转换成客户序列的数据库需要将每一个顾客序列转换成一个替换的代表在一个已经转换的客户序列中，每一个事务被包含于该事物中的所有频繁项目集来替换如果一个序列不包含任何频繁项目集，则在已经转换的序列中就不应该保留这项事务序列阶段算法给出的算法分为两个系列： count-all和count-some 通用结构是遍历数据多遍，在每一遍都利用一个频繁序列的种子集合作为开始，利用种子集合来产生新的潜在频繁序列，称作候选序列(Candidate Sequence) 两个系列 count-all AprioriAll算法 count-some AprioriSome算法和DynamicSome算法类Apriori算法---AprioriAll算法在每一遍中都利用前一遍的频繁序列产生候选序列，然后在完成遍历整个数据库后测试它们的支持度。遍历结束时，候选者的支持度用来确定频繁序列。在第一遍, 输出用来初始化1序列模式的集合 AprioriAll候选序列的产生 (1) 首先进行 Lk-1 与 Lk-1 的连接运算比如1,2,3与1,2,4连接成为1,2,3,4 要注意的是1,2,3,4和1