- 5
- 0
- 约3.06千字
- 约 0页
- 2016-11-29 发布于重庆
- 举报
数据挖掘关联规则FpGrowth算法
数据挖掘(2):关联规则FpGrowth算法
2015/08/28 ·?IT技术?·?数据挖掘
分享到:6
Android-精通Activity
新春特辑-Cocos抢红包
Android攻城狮的第二门课(第3季)
Android攻城狮的第二门课(第2季)
原文出处:?fengfenggirl(@也爱数据挖掘)???
上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。
FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。我们还是以上一篇中用的数据集为例:
TID Items T1 {牛奶,面包} T2 {面包,尿布,啤酒,鸡蛋} T3 {牛奶,尿布,啤酒,可乐} T4 {面包,牛奶,尿布,啤酒} T5 {面包,牛奶,尿布,可乐}
一、构造FpTree
FpTree是一种树结构,树结构定义如下:
1
2
3
4
5
6
7
8 public class FpNode {
?
????String i
原创力文档

文档评论(0)