第六章节挖掘大型数据库中的关联规则.ppt

下载文档 降价啦

5
0
约8.8千字
约 65页
2018-11-06 发布于湖北
举报
版权申诉
保障服务

第六章节挖掘大型数据库中的关联规则.ppt

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第六章节挖掘大型数据库中的关联规则

* 示例（1）等宽：将相距较近的数值分为几组（区间），而其中许多组中都没有数值；（2）等高：将相距较远的数值，如[20, 50]组织在一起。（3）基于距离方法：将相邻很近的数值，如[20, 22]组织在一起。由于其考虑了一个间隔中数据点的数目或密度，以及各数据点之间相近的程度，从而能产生一个更有意义的离散化。 * 什么是关联规则挖掘？ Apriori算法的基本原理？什么是多层关联规则挖掘？什么是多维关联规则挖掘？复习与思考问题 * * * * * * * 在挖掘2-项集时，因为2-项集的任何子集都是频繁项集，所以Apriori算法使用L1*L1来产生候选集。{*}运算通常定义为： Lk*Lk={X∪Y 其中X,Y∈Lk,|X ∪ Y|=k+1} 注: |X ∪ Y|=k+1，即X和Y合取容量为k+1 因此，第二次迭代中的候选集C2由运算|L1|·|L1-1|/2所产生，其个数为：4·3/2=6。用该列表来扫描DB，计算每一个候选集的支持度，并与smin进行比较，产生2-项频繁集L2。图5-2给出了所有这些步骤和第二次迭代的结果。 APRIORI算法过程 APRIORI算法过程候选集C3 运用L2*L2来产生，运算结果得到{A,B,C},{A,C,E},{B,C,E}，但只有{B,C,E}的所有子集是频繁项集，成为候选的3-项集。然后扫描DB，根据最小支持计数，挖掘出频繁3-项集，见图5-3所示: 因为本例的L3无法产生候选的4-项集，所以算法停止迭代过程。图5-3 Apriori算法第三次迭代的结果 APRIORI算法过程该算法不仅计算所有频繁集的支持度，也计算那些没有被删除的非频繁候选集的支持度。所有非频繁但被算法计算支持度的候选项集的集合被称为负边界。因此，如果项集是非频繁的，但它的子集都是频繁的，那么它就在负边界之中。 APRIORI算法过程 * Apriori算法源代码算法：Apriori 使用根据候选生成的逐层迭代找出频繁项集输入：事务数据库D；最小支持度阈值min_sup 输出：D中的频繁项集L （1） L1 = {large 1-itemsets}; //所有1-项目频集（2） FOR （k=2; Lk-1??; k++） DO BEGIN （3） Ck=apriori-gen（Lk-1）; // Ck是k-候选集（4） FOR all transactions t?D DO BEGIN （5） Ct=subset（Ck，t）; // Ct是所有t包含的候选集元素（6） FOR all candidates c? Ct DO （7） c.count++; （8） END （9） Lk={c?Ck |c.count?minsup_count} （10） END （11） L= ?Lk; * 示例：对于前面的例子，基于事务数据库D，在假定最小支持度阈值为50%的前提下，我们得到了频繁项集{2,3,5}。问，由该频繁项集可以产生哪些关联规则？分析：频繁项集L={2,3,5}的非空子集有{2,3}, {2,5}, {3,5}, {2},{3},{5}。则由这些子集可以产生如下关联规则：由频繁项集产生关联规则如果限定最小置信度阈值为80%，则只有规则（1），（3）为强关联规则。 Apriori作为经典的频繁项目集生成算法，在数据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈: 1．多次扫描事务数据库，需要很大的I/O负载对每次k循环，侯选集Ck中的每个元素都必须通过扫描数据库来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话，那么就至少需要扫描事务数据库10遍。 2．可能产生庞大的侯选集由Lk-1产生k-侯选集Ck是指数增长的。 Apriori算法的性能瓶颈如何提高Apriori算法的效率一些算法虽然仍然遵循Apriori 属性，但是由于引入了相关技术，在一定程度上改善了Apriori算法适应性和效率。主要的改进方法有：基于数据分割（Partition）的方法：基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。基于散列（Hash）的方法：基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。基于采样的方法：基本原理是“通过采样技术，评估被采样的子集，并依次来估计k-项集的全局频度”。其他：如，动态删除没有用的事务：“不包含任何Lk的事务对未来的扫描结果不会产生影响，因而可以删除”。 6.3 由事务数据库挖掘多层关联规则多层关联规则

您可能关注的文档

文档评论（0）

1honey + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第六章节挖掘大型数据库中的关联规则.ppt