大型数据库中关联规则挖掘.pptVIP

下载本文档

6
0
约6.25千字
约 33页
2017-09-01 发布于安徽
举报
版权申诉

大型数据库中关联规则挖掘.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第四章关联规则挖掘关联规则挖掘：从事务数据库，关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用：购物篮分析、分类设计、捆绑销售等 “尿布与啤酒”——典型关联分析案例采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，超市也因此发现了一个规律，在购买婴儿尿布的年轻父亲们中，有30%～40%的人同时要买一些啤酒。超市随后调整了货架的摆放，把尿布和啤酒放在一起，明显增加了销售额。同样的，我们还可以根据关联规则在商品销售方面做各种促销活动。一、基本概念给定：项的集合：I={i1,i2,...,in} T={t1,t2…tn}是数据库中事务的集合，每个事务ti则是项的集合，使得则为T中的关联规则。其中并且规则度量：支持度和置信度对所有满足最小支持度和置信度的关联规则支持度s是指事务集T中包含的百分比置信度c是指T中包含A同时也包含B的事务占包含A的事务的百分比最小支持度 min_sup 最小置信度 min_conf 强关联规则：如果事务集合T中的关联规则A ?B同时满足support(A?B)min_sup, confidence(A?B)min_conf, 则A?B称为T中的强关联规则。关联规则挖掘就是在事务集合中挖掘强关联规则。 k－项集：包含k个项的集合 {牛奶，面包，黄油}是个3－项集如果K—项集的频率(即支持计数)大于最小支持计数（最小支持度×T中的事务总数n），则称该项集为频繁K—项集二、关联规则挖掘步骤大型数据库中的关联规则挖掘包含两个过程：找出所有频繁项集大部分的计算都集中在这一步由频繁项集产生强关联规则即满足最小支持度和最小置信度的规则 Apriori算法定理一如果某k-项集不是频繁k-项集，则包含IK的(k+1)--项集也不是频繁(k+1)--项集。该性质称为Apriori性质。由事务数据库挖掘单维布尔关联规则最简单的关联规则挖掘，即单维、单层、布尔关联规则的挖掘。 Apriori算法思想一.扫描一次事务集合，找出频繁1项集集合L1；二.基于L1，产生候选2项集集合C2，再扫描一次事务集合，比较候选支持计数与最小支持计数，找出频繁2项集L2；三.基于L2，找出C3，作剪枝运算，得到剪枝后的C3，再扫描一次事务集合，确定L3；四.以此类推，直至找出频繁项集为止。最后在所有频繁项集中产生强关联规则。 Apriori算法——示例使用Apiori性质由L2产生C3 1 ．连接： C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2．使用Apriori性质剪枝：频繁项集的所有子集必须是频繁的，对候选项C3，我们可以删除其子集为非频繁的选项： {A,B,C}的2项子集是{A,B},{A,C},{B,C}，其中{A,B}不是L2的元素，所以删除这个选项； {A,C,E}的2项子集是{A,C},{A,E},{C,E}，其中{A,E} 不是L2的元素，所以删除这个选项； {B,C,E}的2项子集是{B,C},{B,E},{C,E}，它的所有2－项子集都是L2的元素，因此保留这个选项。 3．这样，剪枝后得到C3={{B,C,E}} 多层关联规则 (1) 在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的通常，事务数据库中的数据也是根据维和概念分层来进行储存的这为从事务数据库中挖掘不同层次的关联规则提供了可能。在多个抽象层挖掘关联规则，并在不同的抽象层进行转化，是数据挖掘系统应该提供的能力挖掘多层关联规则的方法通常，多层关联规则的挖掘还是使用置信度－支持度框架，可以采用自顶向下策略请注意：概念分层中，一个节点的支持度肯定不小于该节点的任何子节点的支持度由概念层1开始向下，到较低的更特定的概念层，对每个概念层的频繁项计算累加计数每一层的关联规则挖掘可以使用Apriori等多种方法例如：先找高层的关联规则：computer - printer [20%, 60%] 再找较低层的关联规则：laptop - color printer [10%, 50%] 多层关联——一致支持度一致支持度：对所有层都使用一致的最小支持度优点：搜索时容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索缺点：最小支持度值设置困难太高：将丢掉出现在较低抽象