序列挖掘算法.pptVIP

下载本文档

14
0
约3.36千字
约 22页
2018-03-26 发布于河南
举报
版权申诉

序列挖掘算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

序列挖掘算法

序列模式挖掘算法序列模式概念概念：一般是指发现相对时间或者其它的顺序出现的高频率子序列。序列模式定义：给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，每个元素由不同项目组成，同时给定一个用户指定的最小支持度阈值，序列模式挖掘就是找出所有的频繁子序列，即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值序列模式实例例1：在两年前购买了Ford 牌轿车的顾客，很有可能在今年采取贴旧换新的购车行动例2：在购买了自行车和购物篮的所有客户中，有70%的客户会在两个月后购买打气筒例3：工业过程控制领域：过程变量采样值时时间序列；变量之间的关系是动态的；系统故障模式；等等序列模式应用领域应用领域：客户购买行为模式预测 Web访问模式（预测）疾病诊断自然灾害预测 DNA序列分析工业控制序列模式表示符号化表示：项目集 Itemset 是各种项目组成的集合序列 Sequence 是不同项目集 ItemSet 的有序排列，序列s可以表示为s s1s2…sl ，sj 1 j l 为项目集 Itemset ，也称为序列s的元素序列的元素 Element 可表示为 x1x2…xm ， xk 1 k m 为不同的项目，如果一个序列只有一个项目，则括号可以省略一个序列包含的所有项目的个数称为序列的长度。长度为l的序列记为l-序列序列模式表示符号化表示：设? a1a2…an ，? b1b2…bm ，如果存在整数1 j1 j2 … jn m，使得a1 ? bj1，a2 ? bj2，…， an ? bjn，则称序列?为序列?的子序列，又称序列?包含序列?，记为? ? ? 序列?在序列数据库S中的支持数为序列数据库S中包含序列?的序列个数，记为Support ? 给定支持度阈值?，如果序列?在序列数据库中的支持数不低于?，则称序列?为序列模式长度为l的序列模式记为l-模式序列模式表示例子：设序列数据库如下图所示，并设用户指定的最小支持度min-support 2。 AprioirAll、Apriorisome和Dynamiesome,这三个算法都是基于序列模式挖掘的Apriori思想提出的序列模式挖掘问题描述：给定序列数据库和最小支持度阈值，序列模式挖掘就是要找出序列数据库中所有的序列模式系统规定：由于同一个元素中的项目之间排列没有顺序，为了表达的唯一性，我们将同一个元素内部的不同项目按照字典顺序排列 AprioirAll算法结果是Ck,即长度为k的候选项目集,函数的过程是由连接步和剪技步完成连接步:为找出L k ,L k-1 将与自身连接产生候选k项集的集合,即C k 剪枝步:修剪C k ,删除C k 中所 k-l 维子集不在L k-1 ,中的项目集 AprioriAll 是最早提出的算法之一，是 Apriori 思想最原始扩展，存在着以下的不足： 1 生成数量庞大的候选序列。 2 需要多次遍历原始数据库。当序列长度增加一，就要遍历一次数据库，遍历数据库的次数为最长序列模式的长度，遍历开销大。 3 不容易发现长序列模式。随着挖掘序列长度的增加，候选序列呈指数增长 4 挖掘过程中数据转换开销大。 5 此算法需要对数据库的频繁扫描由于web日志数据量很大,使这样对算法的时间复杂度和内存空间有很大的挑战 6 由于web数据的自身的特点,如网站可以以结构图形式表示,每个网页可以加上用户的兴趣度等,这些特点的存在,不易直接把APriori算法直接应用于web日志挖掘中 GsP Generalized sequential Patten 算法 GsP Generalized sequential Patten 算法也是基于Apriori思想的,但其从三个方面进行了改进: 1 引入滑动窗口:为了便于对各种序列数据的挖掘,通过该概念我们对交易的定义不必过于严格,在具体的数据中不要求所有序列模式中元素的项来自于同一次交易,如果一些交易处于同一用户指定的时间窗口内,这些项可以来自于不同的交易序列 2 增加时间限制:为了增加序列模式挖掘的灵活性,在序列数据的邻近数据之间增加了最大、最小时间间隔 GSP增加扫描约束条件，有效控制候选序列，减少无用模式的产生 GSP 比 AprioriAll 快 2 倍到 20倍。时间复杂度与序列元素个数成线性关系。但由于GSP 与 AprioriAll 基于相同的原理，也存在着与AprioriAll 相同的不足。 Prefixspan算法模式增长是一种不需要产生候选的频繁模式挖掘方法,该技术是源自于关联规则挖掘中的FP增长算法该方法的基本思想是:先找到各个频繁项