数据挖掘CHAPTER5挖掘大型数据库中的关联规则内容多讲述.ppt

数据挖掘CHAPTER5挖掘大型数据库中的关联规则内容多讲述.ppt

  1. 1、本文档共126页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * GSP 算法 取形如 x 的模式作为长度为1的候选 扫描数据库1次, 找出 F1, 长度为1的序列模式的集合 令 k=1; while Fk is not empty do 由Fk形成Ck+1, 长度为(k+1) 的候选的集合; 如果 Ck+1 非空, 扫描一次数据库, 找出 Fk+1, 长度为(k+1) 序列模式的集合 令 k=k+1; * GSP的瓶颈 可能产生的候选的集合可能很大 1,000 长度为1的频繁序列可以产生 长度为2的候选! 挖掘中多次扫描数据库 实际挑战: 挖掘长序列模式 指数个数短候选 一个长度为100的序列模式 需要 1030 个候选序列! * FreeSpan: 频繁模式投影的序列模式挖掘 FreeSpan: Frequent Pattern-Projected Sequential Pattern Mining 一种分治的方法 基于当前的频繁模式集, 递归地将序列数据库 投影 到一组较小的数据库 挖掘每个较小的数据库, 发现它们的模式 J. Han J. Pei, B. Mortazavi-Asi, Q. Chen, U. Dayal, M.C. Hsu, FreeSpan: Frequent pattern-projected sequential pattern mining. In KDD’00. f_list: b:5, c:4, a:3, d:3, e:3, f:2 所有的序列模式被划分成6个子集合 : 包含项 f 的序列模式 包含 e 不含 f 的序列模式 包含 d 但不含 e 和 f 包含 a 但不含 d, e 和 f 包含 c 但不含 a, d, e 和 f 只包含项 b Sequence Database SDB (bd) c b (ac) (bf) (ce) b (fg) (ah) (bf) a b f (be) (ce) d a (bd) b c b (ade) * 由FreeSpan到PrefixSpan: 为什么? Freespan: 基于投影: 不需要产生候选序列 但是, 投影可能在序列的任意点进行, 投影后的序列缩短不多 PrefixSpan 基于投影 但仅基于前缀的投影: 较少的投影, 并且序列收缩较快 * 前缀和后缀 (投影) a, aa, a(ab) 和 a(abc) 是序列 a(abc)(ac)d(cf)的前缀 给定序列 a(abc)(ac)d(cf) 前缀 后缀 (基于前缀的投影) a (abc)(ac)d(cf) aa (_bc)(ac)d(cf) ab (_c)(ac)d(cf) * 通过前缀投影挖掘序列模式 步骤 1: 找出长度为1的序列模式 a, b, c, d, e, f 步骤 2: 划分搜索空间. 序列模式的完全集可以划分成6个子集合 : 具有前缀 a的模式; 具有前缀 b的模式; … 具有前缀 f的模式 SID 序列 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc * 找出具有前缀 a的序列模式 只需要考虑关于 a的投影 a-投影数据库 : (abc)(ac)d(cf), (_d)c(bc)(ae), (_b)(df)cb, (_f)cbc 找出所有长度为2的序列模式. 具有前缀 a: aa, ab, (ab), ac, ad, af 进一步划分成6个子集合 具有前缀 aa; … 具有前缀 af SID 序列 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc * PrefixSpan的完全性 SID 序列 10 a(abc)(ac)d(cf) 20 (ad)c(bc)(ae) 30 (ef)(ab)(df)cb 40 eg(af)cbc SDB 长度为1的序列模式 a, b, c, d, e, f a-投影数据库 (abc)(ac)d(cf) (_d)c(bc)(ae) (_b)(df)cb (_f)cbc 长度为2的序列模式 aa, ab, (ab), ac, ad, af 具有前缀 a 具有前缀 aa aa-proj. db … af-proj. db 具有前缀 af b-projected database … 具有前缀 b 具有前缀 c, …, f … … * PrefixSpan的有效性 不需要产生候选序列 投影数据库不断收缩 PrefixSpan的主要开销: 构造投影数据库 可以用两级( bi-level) 投影改进 * PrefixSpan的优化技术 PrefixSpan的优

文档评论(0)

ss55863378 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档