第六章节 挖掘大型数据库中的关联规则.ppt

第六章节 挖掘大型数据库中的关联规则.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章节 挖掘大型数据库中的关联规则

* 示 例 (1)等宽: 将相距较近的数值分为几组(区间),而其中许多组中都没有数值; (2)等高: 将相距较远的数值,如[20, 50]组织在一起。 (3)基于距离方法: 将相邻很近的数值,如[20, 22]组织在一起。由于其考虑了一个间隔中数据点的数目或密度,以及各数据点之间相近的程度,从而能产生一个更有意义的离散化。 * 什么是关联规则挖掘? Apriori算法的基本原理? 什么是多层关联规则挖掘? 什么是多维关联规则挖掘? 复习与思考问题 * * * * * * * 在挖掘2-项集时,因为2-项集的任何子集都是频繁项集,所以Apriori算法使用L1*L1来产生候选集。{*}运算通常定义为: Lk*Lk={X∪Y 其中X,Y∈Lk,|X ∪ Y|=k+1} 注: |X ∪ Y|=k+1,即X和Y合取容量为k+1 因此,第二次迭代中的候选集C2由运算|L1|·|L1-1|/2所产生,其个数为:4·3/2=6。用该列表来扫描DB,计算每一个候选集的支持度,并与smin进行比较,产生2-项频繁集L2。图5-2给出了所有这些步骤和第二次迭代的结果。 APRIORI算法过程 APRIORI算法过程 候选集C3 运用L2*L2来产生,运算结果得到{A,B,C},{A,C,E},{B,C,E},但只有{B,C,E}的所有子集是频繁项集,成为候选的3-项集。然后扫描DB,根据最小支持计数,挖掘出频繁3-项集,见图5-3所示: 因为本例的L3无法产生候选的4-项集,所以算法停止迭代过程。 图5-3 Apriori算法第三次迭代的结果 APRIORI算法过程 该算法不仅计算所有频繁集的支持度,也计算那些没有被删除的非频繁候选集的支持度。 所有非频繁但被算法计算支持度的候选项集的集合被称为负边界。因此,如果项集是非频繁的,但它的子集都是频繁的,那么它就在负边界之中。 APRIORI算法过程 * Apriori算法源代码 算法:Apriori 使用根据候选生成的逐层迭代找出频繁项集 输入:事务数据库D;最小支持度阈值min_sup 输出:D中的频繁项集L (1) L1 = {large 1-itemsets}; //所有1-项目频集 (2) FOR (k=2; Lk-1??; k++) DO BEGIN (3) Ck=apriori-gen(Lk-1); // Ck是k-候选集 (4) FOR all transactions t?D DO BEGIN (5) Ct=subset(Ck,t); // Ct是所有t包含的候选集元素 (6) FOR all candidates c? Ct DO (7) c.count++; (8) END (9) Lk={c?Ck |c.count?minsup_count} (10) END (11) L= ?Lk; * 示例:对于前面的例子,基于事务数据库D,在假定最小支持度阈值为50%的前提下,我们得到了频繁项集{2,3,5}。问,由该频繁项集可以产生哪些关联规则? 分析:频繁项集L={2,3,5}的非空子集有{2,3}, {2,5}, {3,5}, {2},{3},{5}。则由这些子集可以产生如下关联规则: 由频繁项集产生关联规则 如果限定最小置信度阈值为80%,则只有规则(1),(3)为强关联规则。 Apriori作为经典的频繁项目集生成算法,在数据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈: 1.多次扫描事务数据库,需要很大的I/O负载 对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。 2.可能产生庞大的侯选集 由Lk-1产生k-侯选集Ck是指数增长的。 Apriori算法的性能瓶颈 如何提高Apriori算法的效率 一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关技术,在一定程度上改善了Apriori算法适应性和效率。 主要的改进方法有: 基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。 基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。 基于采样的方法:基本原理是“通过采样技术,评估被采样的子集,并依次来估计k-项集的全局频度”。 其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。 6.3 由事务数据库挖掘多层关联规则 多层关联规则

文档评论(0)

1honey + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档