第十一章 序列模式挖掘4.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十一章 序列模式挖掘4

第十一章 序列模式挖掘 序列挖掘或称序列模式挖掘,是指从序列数据库中发现蕴涵的序列模式。时间序列分析和序列模式挖掘有许多相似之处,在应用范畴、技术方法等方面也有很大的重合度。但是,序列挖掘一般是指相对时间或者其他顺序出现的序列的高频率子序列的发现,典型的应用还是限于离散型的序列。 序列模式挖掘最早是由Agrawal等人提出的,它的最初动机是针对带有交易时间属性的交易数据库中发现频繁项目序列以发现某一时间段内客户的购买活动规律。 近年来序列模式挖掘已经成为数据挖掘的一个重要方面,其应用范围也不局限于交易数据库,在DNA分析等尖端科学研究领域、Web访问等新型应用数据源等众多方面得到针对性研究。 一、序列模式的概念及定义 举例说明,比如有顾客租借录像带,典型的顺序是先租“星球大战”,然后是“帝国反击战”,再是“杰达武士归来”(这三部影片是以故事发生的时间先后而情节连续的)。值得注意的是租借这三部电影的行为并不一定需要是连续的。在任意两部之间随便插租了什么电影,仍然还是满足了这个序列模式,并且扩展一下,序列模式的元素也可以不只是一个元素(如一部电影),它也可以是一个项集(item set)。 项集,指的是多个物品组成的集合,内部元素不分排列顺序,比如“枕头和枕头套”就可以看作是由两个项(item)组成的项集,它也可以作为某一个序列模式的元素。 相关概念及定义 以商品交易为例子,数据源是一个给定的由客户交易组成的大型数据库,每个交易由客户号(customer-id),交易时间以及在交易中购买的项组成。 项集(itemset):由项(item)组成的一个非空集合。 序列(sequence):是一列排好序的项集。 序列挖掘—基本概念 定义11-1 一个序列(Sequence)是项集的有序表,记为α=α1→α2→?→αn,其中每个αi是一个项集(Itemset)。一个序列的长度(Length)是它所包含的项集。具有k长度的序列称为k-序列。 定义11-2 设序列α=α1→α2→?→αn,序列β=β1→β2→?→βm 。若存在整数i1i2?in,使得 , 则称序列α是序列β的子序列,或序列β包含序列α。在一组序列中,如果某序列α不包含其他任何序列中,则称α是该组中最长序列(Maximal sequence)。 最大序列 序列挖掘—基本概念 定义11-3 给定序列S,序列数据库DT,序列S的支持度(Support)是指S在DT中相对于整个数据库元组而言所包含S的元组出现的百分比。支持度大于最小支持度(min-sup)的k-序列,称为DT上的频繁k-序列。 相关概念及定义 客户序列 一个数据库中的交易记录可以表示成上表 序列挖掘—数据源的形式(续) 相关概念及定义 序列模式 如果一个序列s包含于一个客户序列中,则称该客户支持序列s。一个序列的支持度定义为支持该序列的客户总数。 给定一个由客户交易组成的数据库D,挖掘序列模式的问题是:在那些具有客户指定最小支持度的序列中找出最大序列。而这样的最大序列就代表了一个序列模式。 示例 对于最小支持数为2的情况,有两个序列: (30) (90) 和 (30) (40,70) 在那些满足支持度约束的序列中是最大的,也是我们所需的序列模式。 序列挖掘算法 步骤 1) 排序阶段。数据库D以客户号为主键,交易时间为次键进行排序。这个阶段将原来的事务数据库转换成由客户序列组成的数据库。 2) 频繁项集阶段。找出所有频繁项集组成的集合L。也同步得到所有频繁1-序列组成的集合。 3) 转换阶段。在找序列模式的过程中,要不断地进行检测一个给定的频繁集是否包含于一个客户序列中。 4) 序列阶段利用已知的频繁集的集合来找到所需的序列。类似于关联的Apriori算法。 算法示例 1) 在给出的数据库中,找出所有频繁1-序列组成的集合: 和 2) 给一个可行的映射。 算法示例 3)转换。为了使这个过程尽量的快,用另一种形式来替换每一个客户序列。 在转换完成的客户序列中,每条交易被其所包含的所有频繁项集所取代。 如果一条交易不包含任何频繁集,在转换完成的序列中它将不被保留。 如果一个客户序列不包含任何的频繁项集,在转换好的数据库中这个序列也将不复存在。 一个客户序列被一列由频繁集组成的集合所取代,每个频繁集的集合表示为{l1,l2,…,ln},l i表示一个频繁集。 算法示例 例:考察右图所示的一个客户序列组成的数据库,假定客户序列已经以转换的形式出现了,每一条交易都被包含其中的频繁项集取代,频繁项集则由整数代替。最小支持数据定义为

文档评论(0)

jyf123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6153235235000003

1亿VIP精品文档

相关文档