第八章关联规则(1).pptVIP

下载本文档

16
0
约4.31千字
约 29页
2017-08-13 发布于河南
举报
版权申诉

第八章关联规则(1).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

就业工场数据中心第八章关联规则本章目标解释关联规则技术的建模特性。分析大型数据库的基本特性。描述Apriori算法，并通过示例来解释算法的所有步骤。将频繁模式增长方法同Apriori算法进行比较。概述从频繁集中产生关联规则的方法。第八章关联规则本章目标举例说明使用HITs、LOGSOM和路径遍历算法来进行Web挖掘的可行性。在指定提炼和萃取阶段的基础上定型文本挖掘的构架。关联规则是数据挖掘的主要技术之一，也是在无指导学习系统中挖掘本地模式的最普遍形式。本章除了重点介绍关联规则挖掘的Apriori技术外，还将讨论一些和Web挖掘、文本挖掘相关的数据挖掘方法。 8.1 购物篮分析购物篮是顾客在一次事务中所购买项的集合，所谓事务是一个明确定义的商业行为。事务数据库研究的一个最普通的例子就是寻找项的集合，或叫做项集。包含i个项的项集被称为i-项集。包含该项集的事务的百分数叫做该项集的支持度。支持度超过指定阈值的项集叫做频繁项集。基本概念：　设I={i1,i2,…im}是项的集合，DB为事务集合，其中每个事务T是项的集合，且有。每一个事务有一个标识符，称作TID。设X为一个项集，当且仅当时，即T包含X。关联规则是形如的蕴涵式，其中　, 　　　,且。规则　　　在事务集DB中成立，具有支持度s，其中s是DB中事务包含X和Y两者的百分比。规则　　　　在事务集DB中具有置信度c，如果DB中包含X的事务同时也包含Y的百分比是c。支持度是概率。置信度是概率。置信度可以表示规则的可信性，支持度表示模式在规则中出现的频率。具有高置信度和强支持度的规则被称为强规则。挖掘关联规则的问题可以分两个阶段：　1.发掘大项集，也就是事务支持度s大于预先给定的最小阈值的项的集合。　2.使用大项集来产生数据库中置信度c大于预先给定的最小阈值的关联规则。 Apriori算法是解决这个问题的常用方法。 8.2 APRIORI算法 Apriori算法利用几次迭代来计算数据库中的频繁项集。第i次迭代计算出所有频繁i项集(包含i个元素的项集)。每一次迭代有两个步骤：产生候选集；计算和选择候选集。在第一次迭代中，产生的候选集包含所有1-项集，并计算其支持度s，s大于阈值的1-项集被选为频繁1-项集。第二次迭代时，Apriori算法首先去除非频繁1-项集，在频繁1-项集的基础上进行产生频繁2-项集。原理是：如果一个项集是频繁，那么它的所有子集也是频繁的。例如，以表8-1中的数据为例。假设smin=50%。在第一次迭代的第一步中，所有单项集都作为候选集，产生一个候选集列表。在下一步中，计算每一项的支持度，然后在smin的基础上选择频繁项集。图8-1中给出第一次迭代的结果。在挖掘2-项集时，因为2-项集的任何子集都是频繁项集，所以Apriori算法使用L1*L1来产生候选集。*运算通常定义为： Lk*Lk={X∪Y 其中X,Y∈Lk,|X∩Y|=k+1} 注:|X∩Y|=k+1即X和Y合取容量为k+1 当k=1时，因此，C2包含在第二次迭代中作为候选集由运算|L1|·|L1-1|/2所产生的2-项集。本例中为：4·3/2=6。用该列表来扫描DB，计算每一个候选集的s，并与smin比较2-项集L2。图8-2给出了所有这些步骤和第二次迭代的结果。候选集C3 运用L2*L2来产生，运算结果得到{A,B,C},{A,C,E},{B,C,E}，但只有{B,C,E}的所有子集是频繁项集，成为候选的3-项集。然后扫描DB，并且挖掘出频繁3-项集，见图8-3所示。因为本例的L3无法产生候选的4-项集，所以算法停止迭代过程。该算法不仅计算所有频繁集的s，也计算那些没有被删除的非频繁候选集的s。所有非频繁但被算法计算s的候选项集的集合被称为负边界。因此，如果项集非频繁的，但它的子集都是频繁的，那么它就在负边界之中。在本例中，负边界由项集{D},{A,B},{A,E} 组成。负边界在一些Apriori的改进算法中更为重要，例如生成大项集或导出负关联规则时提高了有效性。 8.3 从频繁项集得到关联规则第二阶段的工作是在第一阶段的基础上，来挖掘关联规则。如果规则为{x1,x2,x3}→x4，那么项集{x1,x2,x3,x4}和{x1,x2,x3}都必须是频繁的。然后，规则置信度c= P({x4}|{x1,x2,x3})=s(x1,x2,x3,x4)/s(x1,x2,x3)。置信度c大于给定的阈值的规则就是强规则。例如，检验表8-1DB中的关联规则{B,C}→{E}是否为强关联规则。由图8-2和图8-3可

您可能关注的文档

文档评论（0）

80092355km + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第八章关联规则(1).pptVIP