数据挖掘2015最新精品课程完整课件(第4讲)---各种频繁项集挖掘算法.ppt

下载文档 降价啦

3
0
约4.39千字
约 40页
2017-09-10 发布于湖北
举报
版权申诉
保障服务

数据挖掘2015最新精品课程完整课件(第4讲)---各种频繁项集挖掘算法.ppt

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘2015最新精品课程完整课件(第4讲)---各种频繁项集挖掘算法

ECLAT算法--1　 M J Zaki. Scalable Algorithms for Association Mining. IEEE Transaction on Knowledge And Data Engineering, 2000, 12 (3) 通过对两个(k-1)-子集的tid-list求交来计算k-项集的支持度 ? ? ECLAT算法--2 按照等价类进行挖掘挖掘全部与A有关的项集挖掘全部与B有关的项集优点：快速计算项集的支持度；扫描数据库的次数较少（最好的情况下仅需两次扫描）不足：要保存大量的tid-lists的中间结果数据库的位图表示行代表事务列代表项目若项目i在事务t中出现，则(t,i)=1, 否则(t,i)=0 存储空间小可利用位操作，速度快主要内容 FP-Growth 垂直挖掘矩阵表示倒排矩阵--1 M EI-Hajj, O R Za?ane. Inverted matrix: efficient discovery of frequent items in large datasets in the context of interactive mining.KDD’03 把事务和项目关联起来：行代表项目，列代表事务每个元素是一个二元组(r,c)，记录与当前行所代表的项目相邻出现的项目的信息，其中r代表相邻项目的行，c代表相邻项目的列倒排矩阵--2 扫描一遍数据库，把项目按支持度由低到高排列倒排矩阵--3 按照排列后的顺序对各个事务进行重新排列倒排矩阵--4 倒排矩阵--5 假设给定最小支持度为5，得到子事务倒排矩阵--6 适于交互式挖掘改变支持度往往需要重新挖掘，代价较高各种频繁项集挖掘算法主要内容 FP-Growth 垂直挖掘矩阵表示 Apriori算法的瓶颈候选—验证的挖掘方式存在以下问题：多次扫描数据库I/O代价较高挖掘长的频繁项集将产生大量的候选项集如挖掘 i1i2…i100 扫描数据的次数: 100 候选项集的数量: 能否不产生候选项集？ FP-Growth算法 J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. SIGMOD’ 00. 利用FP-树对数据库进行压缩表示自顶向下建树递归使用分而治之的策略来挖掘频繁项集自底向上挖掘频繁项集无需产生候选项集的频繁项集挖掘用局部频繁项目，由短至长的扩展频繁项集 “abc”是频繁项集得到所有包含 “abc”的事务: DB|abc 若“d”在DB|abc中是局部频繁的 ? abcd便是一个频繁项集 FP-树树T 根结点? 其它结点n： n.item-项目 n.count-项目在当前分支的支持度计数 n.parent-父结点 n.children-孩子结点 n.link-下一个包含item的结点每条分支代表一个项集，每个结点代表一个项目头表H item-项目 link-指向树中第一个包含item的结点建立 FP-树 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 minsup = 0.5 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} 步骤: 扫描一次数据库，得到1-频繁项集，并删除非频繁项目把1-频繁项集按支持度递减排序再次扫描数据库，建立FP-树 FP-树的优势完备: 包含了频繁项集挖掘所需的全部信息紧密去除不相关信息—不包含非频繁项支持度降序排列: 支持度高的项在FP-tree中共享的机会也高存储开销一般比原数据库小，在Connect数据库上,存储压缩率超过100 用FP-Growth算法挖掘频繁项集对每个项目，生成它的条件模式库，然后是它的条件FP-树对每个新生成的条件FP-树，重复这个步骤直到结果FP-tree为空分而治之