数据挖掘CHAPTER序列数据挖掘创新.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘CHAPTER序列数据挖掘创新.ppt

序列数据库和序列模式挖掘 事务数据库vs. 序列数据库 频繁模式 vs. (频繁) 序列模式 序列模式挖掘的应用 顾客购物序列: 在3个月内, 先买计算机, 然后买 CD-ROM, 再后买数字照相机. 医疗处治, 自然灾害 (例如, 地震), 科学 和 工程进度, 股票 和市场等. 电话呼叫模式, Web日志 点击流 DNA 序列和基因结构 什么是序列模式挖掘? 给定一个序列的集合, 找出所有的 频繁 子序列 序列:事件的有序列表 序列模式挖掘的挑战 大量的 可能的序列模式隐藏在数据库中 挖掘算法应当 可能的话, 找出满足最小支持度阈值的模式的完全集 高度 有效的, 可伸缩的, 仅涉及不多次数的数据库扫描 可以与各种用户指定的约束结合 序列模式挖掘研究 概念引进和最初的 类Apriori算法 R. Agrawal R. Srikant. “Mining sequential patterns,” ICDE’95 GSP—一种基于Apriori的, 有影响的算法 (IBM Almaden开发) R. Srikant R. Agrawal. “Mining sequential patterns: Generalizations and performance improvements,” EDBT’96 由序列模式到 episodes (类Apriori+ 约束) H. Mannila, H. Toivonen A.I. Verkamo. “Discovery of frequent episodes in event sequences,” Data Mining and Knowledge Discovery, 1997 挖掘具有约束的序列模式 M.N. Garofalakis, R. Rastogi, K. Shim: SPIRIT: Sequential Pattern Mining with Regular Expression Constraints. VLDB 1999 序列模式的基本性质: Apriori 基本性质: Apriori (Agrawal Sirkant’94) 如果序列 S 不是频繁的 则 S 的任何超序列都不是频繁的 例, hb 是非频繁的 ? hab 和 (ah)b也是非频繁的 GSP—一种拓广的序列模式挖掘算法 GSP (Generalized Sequential Pattern) 挖掘算法 Agrawal 和 Srikant提出, EDBT’96 方法概述 初始, 数据库中的每个项都是长度为1的候选 for each level (即, 长度为k的序列) do 扫描数据库对每个候选序列收集支持度计数 使用Apriori , 由长度为k 的频繁序列产生长度为(k+1)的候选序列 repeat until 找不到频繁序列或候选 主要优点: 根据Apriori对后选剪枝 找长度为1的序列模式 使用一个例子考查 GSP 初始候选: 所有单元素序列 a, b, c, d, e, f, g, h 扫描数据库一次, 对候选进行支持度计数 产生长度为2的候选 找出长度为2的序列模式 再扫描数据库一次, 对每个长度为2的候选收集支持度计数 有 19 长度为2 的候选, 满足最小支持度阈值 它们是长度为2的序列模式 产生长度为3的候选并找出长度为3的模式 产生长度为3的候选 长度为2的序列模式自连接 根据 Apriori 性质 ab, aa 和 ba 都是长度为2的序列模式 ? aba 是一个长度为3的候选 (bd), bb 和 db都是长度为2的序列模式 ? (bd)b是一个长度为3的候选 产生46 个候选 找出长度为3的序列模式 再次扫描数据库, 收集候选的支持度计数 46个候选中有19个满足支持度计数 GSP 挖掘过程 GSP 算法 取形如 x 的模式作为长度为1的候选 扫描数据库1次, 找出 F1, 长度为1的序列模式的集合 令 k=1; while Fk is not empty do 由Fk形成Ck+1, 长度为(k+1) 的候选的集合; 如果 Ck+1 非空, 扫描一次数据库, 找出 Fk+1, 长度为(k+1) 序列模式的集合 令 k=k+1; GSP的瓶颈 可能产生的候选的集合可能很大 1,000 长度为1的频繁序列可以产生 长度为2的候选! 挖掘中多次扫描数据库 实际挑战: 挖掘长序列模式 指数个数短候选 一个长度为100的序列模式 需要 1030 个候选序列! The SPADE Algorithm SPADE (Sequential PAttern Discovery using Equivalent Class) developed by Z

文档评论(0)

w447750 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档