数据挖掘原理与算法03改解析.ppt

下载文档 降价啦

38
0
约8.84千字
约 42页
2017-02-20 发布于湖北
举报
保障服务

数据挖掘原理与算法03改解析.ppt

* * 3.4 提高Apriori算法效率的技术一些算法虽然仍然遵循Apriori 属性，但是由于引入了相关技术，在一定程度上改善了Apriori算法适应性和效率。主要的改进方法有：基于数据分割（Partition）的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。基于散列（Hash）的方法：基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。基于采样（Sampling）的方法：基本原理是“通过采样技术，评估被采样的子集中，并依次来估计k-项集的全局频度”。其他：如，动态删除没有用的事务：“不包含任何Lk的事务对未来的扫描结果不会产生影响，因而可以删除”。 * * 基于数据分割的方法定理3-5 设数据集D被分割成分块D1， D2， …， Dn，全局最小支持数为minsup_count。如果一个数据分块Di 的局部最小支持数minsup_counti （i 1，2，…，n），按着如下方法生成： minsup_counti minsup_count *||Di|| / ||D|| 则所有的局部频繁项目集涵盖全局频繁项目集。作用： 1．合理利用主存空间：数据分割将大数据集分成小的块，为块内数据一次性导入主存提供机会。 2．支持并行挖掘算法：每个分块的局部频繁项目集是独立生成的，因此提供了开发并行数据挖掘算法的良好机制。 * * 基于散列的方法 1995，Park等发现寻找频繁项目集的主要计算是在生成2-频繁项目集上。因此，Park等利用了这个性质引入杂凑技术来改进产生2-频繁项目集的方法。例子：桶地址（10x+y）mod 7；minsupport_count 3 TID Items 1 I1，I2，I5 2 I2，I4 3 I2，I3 4 I1，I2，I4 5 I1，I3 6 I2，I3 7 I1，I3 8 I1，I2，I3，I5 9 I1，I2，I3 桶地址 0 1 2 3 4 5 6 桶计数 2 2 4 2 2 4 4 桶内 I1，I4 I1，I5 I2，I3 I2，I4 I2，I5 I1，I2 I1，I3 I3，I5 I1，I5 I2，I3 I2，I4 I2，I5 I1，I2 I1，I3 I2，I3 I1，I2 I1，I3 I2，I3 I1，I2 I1，I3 L2 I2，I3 ， I1，I2 ， I1，I3 * * 第三章关联规则挖掘理论和算法内容提要 3.5 对项目集格空间理论的发展 Close算法 FP-tree算法 * * 探索新的理论随着数据库容量的增大，重复访问数据库（外存）将导致性能低下。因此，探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用，已经成为近年来关联规则挖掘研究的热点之一。两个典型的方法： Close算法 FP-tree算法 * * Close算法对应的原理一个频繁闭合项目集的所有闭合子集一定是频繁的；一个非频繁闭合项目集的所有闭合超集一定是非频繁的。什么是一个闭合的项目集？一个项目集C是闭合的，当且仅当对于在C中的任何元素，不可能在C中存在小于或等于它的支持度的子集。例如，C1 AB3，ABC2 是闭合的； C2 AB2，ABC2 不是闭合的； * * Close算法的例子下面是Close算法作用到表4-1数据集的执行过程（假如minsup_count 3）：扫描数据库得到L1 A,3 , B,5 , C,4 , D,3 , E,3 ；相应关闭项目集为 Cl A ABC,3 ，Cl B B,5 ，Cl C BC,4 ，Cl D BD,3 ，Cl E BE,3 ； L2 AB,3 , AC,3 , BC,4 , BD,3 , BE,3 ；相应关闭集为C2 AB ABC,3 ； L3，L4，L5不用测，于是频繁大项集为 ABC 。样本数据库 TID Itemset 1 A，B，C，D 2 B，C，E 3 A，B，C，E 4 B，D，E 5 A，B，C，D * * FP-tree算法的基本原理进行2次数据库扫描：一次对所有1-项目的频度排序；一次将数据库信息转变成紧缩内存结构。不使用侯选集，直接压缩数据库成一个频繁模式树，通过频繁模式树可以直接得到频集。基本步骤是：两次扫描数据库，生成频繁模式树FP-Tree：扫描数据库一次，得到所有1-项目的频度排序表T；依照T，再扫描数据库，得到FP-Tree。使用FP-Tree，生成频集：为FP-tree中的每个节点生成条件模式库；用条件模式库构造对应的条件FP-tree；

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘原理与算法03改解析.ppt