数据挖掘CHAPTER5挖掘大型数据库中的关联规则内容多解决方案.ppt

数据挖掘CHAPTER5挖掘大型数据库中的关联规则内容多解决方案.ppt

* * * * * * * * * * * GSP 算法 取形如 x 的模式作为长度为1的候选 扫描数据库1次, 找出 F1, 长度为1的序列模式的集合 令 k=1; while Fk is not empty do 由Fk形成Ck+1, 长度为(k+1) 的候选的集合; 如果 Ck+1 非空, 扫描一次数据库, 找出 Fk+1, 长度为(k+1) 序列模式的集合 令 k=k+1; * GSP的瓶颈 可能产生的候选的集合可能很大 1,000 长度为1的频繁序列可以产生 长度为2的候选! 挖掘中多次扫描数据库 实际挑战: 挖掘长序列模式 指数个数短候选 一个长度为100的序列模式 需要 1030 个候选序列! * FreeSpan: 频繁模式投影的序列模式挖掘 FreeSpan: Frequent Pattern-Projected Sequential Pattern Mining 一种分治的方法 基于当前的频繁模式集, 递归地将序列数据库 投影 到一组较小的数据库 挖掘每个较小的数据库, 发现它们的模式 J. Han J. Pei, B. Mortazavi-Asi, Q. Chen, U. Dayal, M.C. Hsu, FreeSpan: Frequent pattern-projected sequential pattern mining. In

文档评论(0)

1亿VIP精品文档

相关文档