数据挖掘原理与算法03改重点.ppt

下载文档 降价啦

13
0
约9.43千字
约 42页
2016-10-04 发布于湖北
举报
版权申诉
保障服务

数据挖掘原理与算法03改重点.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * 3.4 提高Apriori算法效率的技术一些算法虽然仍然遵循Apriori 属性，但是由于引入了相关技术，在一定程度上改善了Apriori算法适应性和效率。主要的改进方法有：基于数据分割（Partition）的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。基于散列（Hash）的方法：基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。基于采样（Sampling）的方法：基本原理是“通过采样技术，评估被采样的子集中，并依次来估计k-项集的全局频度”。其他：如，动态删除没有用的事务：“不包含任何Lk的事务对未来的扫描结果不会产生影响，因而可以删除”。 * * 基于数据分割的方法定理3-5 设数据集D被分割成分块D1， D2， …， Dn，全局最小支持数为minsup_count。如果一个数据分块Di 的局部最小支持数minsup_counti （i=1，2，…，n），按着如下方法生成： minsup_counti= minsup_count *||Di|| / ||D|| 则所有的局部频繁项目集涵盖全局频繁项目集。作用： 1．合理利用主存空间：数据分割将大数据集分成小的块，为块内数据一次性导入主存提供机会。 2．支持并行挖掘算法：每个分块的局部频繁项目集是独立生成的，因此提供了开发并行数据挖掘算法的良好机制。 * * 基于散列的方法 1995，Park等发现寻找频繁项目集的主要计算是在生成2-频繁项目集上。因此，Park等利用了这个性质引入杂凑技术来改进产生2-频繁项目集的方法。例子：桶地址 =（10x+y）mod 7；minsupport_count=3 TID Items 1 I1，I2，I5 2 I2，I4 3 I2，I3 4 I1，I2，I4 5 I1，I3 6 I2，I3 7 I1，I3 8 I1，I2，I3，I5 9 I1，I2，I3 桶地址 0 1 2 3 4 5 6 桶计数 2 2 4 2 2 4 4 桶内 {I1，I4} {I1，I5} {I2，I3} {I2，I4} {I2，I5} {I1，I2} {I1，I3} {I3，I5} {I1，I5} {I2，I3} {I2，I4} {I2，I5} {I1，I2} {I1，I3} {I2，I3} {I1，I2} {I1，I3} {I2，I3} {I1，I2} {I1，I3} L2={{I2，I3} ， {I1，I2} ， {I1，I3}} * * 第三章关联规则挖掘理论和算法内容提要 3.5 对项目集格空间理论的发展 Close算法 FP-tree算法 * * 探索新的理论随着数据库容量的增大，重复访问数据库（外存）将导致性能低下。因此，探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用，已经成为近年来关联规则挖掘研究的热点之一。两个典型的方法： Close算法 FP-tree算法 * * Close算法对应的原理一个频繁闭合项目集的所有闭合子集一定是频繁的；一个非频繁闭合项目集的所有闭合超集一定是非频繁的。什么是一个闭合的项目集？一个项目集C是闭合的，当且仅当对于在C中的任何元素，不可能在C中存在小于或等于它的支持度的子集。例如，C1={AB3，ABC2}是闭合的； C2={AB2，ABC2}不是闭合的； * * Close算法的例子下面是Close算法作用到表4-1数据集的执行过程（假如minsup_count=3）：扫描数据库得到L1={(A,3), (B,5), (C,4), (D,3), (E,3)}；相应关闭项目集为 Cl (A)={ABC,3}，Cl (B)={B,5}，Cl (C)={BC,4}，Cl (D)={BD