网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘2015最新精品课程完整课件(第4讲)---各种频繁项集挖掘算法.ppt

数据挖掘2015最新精品课程完整课件(第4讲)---各种频繁项集挖掘算法.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘2015最新精品课程完整课件(第4讲)---各种频繁项集挖掘算法

ECLAT算法--1  M J Zaki. Scalable Algorithms for Association Mining. IEEE Transaction on Knowledge And Data Engineering, 2000, 12 (3) 通过对两个(k-1)-子集的tid-list求交来计算k-项集的支持度 ? ? ECLAT算法--2 按照等价类进行挖掘 挖掘全部与A有关的项集 挖掘全部与B有关的项集 优点:快速计算项集的支持度;扫描数据库的次数较少(最好的情况下仅需两次扫描) 不足:要保存大量的tid-lists的中间结果 数据库的位图表示 行代表事务 列代表项目 若项目i在事务t中 出现,则(t,i)=1, 否则(t,i)=0 存储空间小 可利用位操作, 速度快 主要内容 FP-Growth 垂直挖掘 矩阵表示 倒排矩阵--1 M EI-Hajj, O R Za?ane. Inverted matrix: efficient discovery of frequent items in large datasets in the context of interactive mining.KDD’03 把事务和项目关联起来:行代表项目,列代表事务 每个元素是一个二元组(r,c),记录与当前行所代表的项目相邻出现的项目的信息,其中r代表相邻项目的行,c代表相邻项目的列 倒排矩阵--2 扫描一遍数据库,把项目按支持度由低到高排列 倒排矩阵--3 按照排列后的顺序对各个事务进行重新排列 倒排矩阵--4 倒排矩阵--5 假设给定最小支持度为5,得到子事务 倒排矩阵--6 适于交互式挖掘 改变支持度往往需要重新挖掘,代价较高 各种频繁项集挖掘算法 主要内容 FP-Growth 垂直挖掘 矩阵表示 Apriori算法的瓶颈 候选—验证的挖掘方式存在以下问题: 多次扫描数据库I/O代价较高 挖掘长的频繁项集将产生大量的候选项集 如挖掘 i1i2…i100 扫描数据的次数: 100 候选项集的数量: 能否不产生候选项集? FP-Growth算法 J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. SIGMOD’ 00. 利用FP-树对数据库进行压缩表示 自顶向下建树 递归使用分而治之的策略来挖掘频繁项集 自底向上挖掘频繁项集 无需产生候选项集的频繁项集挖掘 用局部频繁项目,由短至长的扩展频繁项集 “abc”是频繁项集 得到所有包含 “abc”的事务: DB|abc 若“d”在DB|abc中是局部频繁的 ? abcd便是一个频繁项集 FP-树 树T 根结点? 其它结点n: n.item-项目 n.count-项目在当前分支的支持度计数 n.parent-父结点 n.children-孩子结点 n.link-下一个包含item的结点 每条分支代表一个项集,每个结点代表一个项目 头表H item-项目 link-指向树中第一个包含item的结点 建立 FP-树 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 minsup = 0.5 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 步骤: 扫描一次数据库,得到1-频繁项集,并删除非频繁项目 把1-频繁项集按支持度递减排序 再次扫描数据库,建立FP-树 FP-树的优势 完备: 包含了频繁项集挖掘所需的全部信息 紧密 去除不相关信息—不包含非频繁项 支持度降序排列: 支持度高的项在FP-tree中共享的机会也高 存储开销一般比原数据库小,在Connect数据库上,存储压缩率超过100 用FP-Growth算法挖掘频繁项集 对每个项目,生成它的条件模式库,然后是它的条件FP-树 对每个新生成的条件FP-树,重复这个步骤 直到结果FP-tree为空 分而治之

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档