- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 3.4 提高Apriori算法效率的技术 一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关技术,在一定程度上改善了Apriori算法适应性和效率。 主要的改进方法有: 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。 基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。 基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。 * * 基于数据分割的方法 定理3-5 设数据集D被分割成分块D1, D2, …, Dn,全局最小支持数为minsup_count。如果一个数据分块Di 的局部最小支持数minsup_counti (i=1,2,…,n),按着如下方法生成: minsup_counti= minsup_count *||Di|| / ||D|| 则所有的局部频繁项目集涵盖全局频繁项目集。 作用: 1.合理利用主存空间:数据分割将大数据集分成小的块,为块内数据一次性导入主存提供机会。 2.支持并行挖掘算法:每个分块的局部频繁项目集是独立生成的,因此提供了开发并行数据挖掘算法的良好机制。 * * 基于散列的方法 1995,Park等发现寻找频繁项目集的主要计算是在生成2-频繁项目集上。因此,Park等利用了这个性质引入杂凑技术来改进产生2-频繁项目集的方法。 例子:桶地址 =(10x+y)mod 7;minsupport_count=3 TID Items 1 I1,I2,I5 2 I2,I4 3 I2,I3 4 I1,I2,I4 5 I1,I3 6 I2,I3 7 I1,I3 8 I1,I2,I3,I5 9 I1,I2,I3 桶地址 0 1 2 3 4 5 6 桶计数 2 2 4 2 2 4 4 桶内 {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I1,I2} {I1,I3} {I3,I5} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I1,I2} {I1,I3} {I2,I3} {I1,I2} {I1,I3} {I2,I3} {I1,I2} {I1,I3} L2={{I2,I3} , {I1,I2} , {I1,I3}} * * 第三章 关联规则挖掘理论和算法 内容提要 3.5 对项目集格空间理论的发展 Close算法 FP-tree算法 * * 探索新的理论 随着数据库容量的增大,重复访问数据库(外存)将导致性能低下。因此,探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用,已经成为近年来关联规则挖掘研究的热点之一。 两个典型的方法: Close算法 FP-tree算法 * * Close算法对应的原理 一个频繁闭合项目集的所有闭合子集一定是频繁的;一个非频繁闭合项目集的所有闭合超集一定是非频繁的。 什么是一个闭合的项目集? 一个项目集C是闭合的,当且仅当对于在C中的任何元素,不可能在C中存在小于或等于它的支持度的子集。 例如,C1={AB3,ABC2}是闭合的; C2={AB2,ABC2}不是闭合的; * * Close算法的例子 下面是Close算法作用到表4-1数据集的执行过程(假如minsup_count=3): 扫描数据库得到L1={(A,3), (B,5), (C,4), (D,3), (E,3)};相应关闭项目集为 Cl (A)={ABC,3},Cl (B)={B,5},Cl (C)={BC,4},Cl (D)={BD
文档评论(0)