- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
就业工场数据中心 第八章 关联规则 本章目标 解释关联规则技术的建模特性。 分析大型数据库的基本特性。 描述Apriori算法,并通过示例来解释算法的所有步骤。 将频繁模式增长方法同Apriori算法进行比较。 概述从频繁集中产生关联规则的方法。 第八章 关联规则 本章目标 举例说明使用HITs、LOGSOM和路径遍历算法来进行Web挖掘的可行性。 在指定提炼和萃取阶段的基础上定型文本挖掘的构架。 关联规则是数据挖掘的主要技术之一,也是在无指导学习系统中挖掘本地模式的最普遍形式。 本章除了重点介绍关联规则挖掘的Apriori技术外,还将讨论一些和Web挖掘、文本挖掘相关的数据挖掘方法。 8.1 购物篮分析 购物篮是顾客在一次事务中所购买项的集合,所谓事务是一个明确定义的商业行为。 事务数据库研究的一个最普通的例子就是寻找项的集合,或叫做项集。包含i个项的项集被称为i-项集。包含该项集的事务的百分数叫做该项集的支持度。支持度超过指定阈值的项集叫做频繁项集。 基本概念: 设I={i1,i2,…im}是项的集合,DB为事务集合,其中每个事务T是项的集合,且有 。每一个事务有一个标识符,称作TID。 设X为一个项集,当且仅当 时,即T包含X。关联规则是形如 的蕴涵式,其中 , ,且 。规则 在事务集DB中成立,具有支持度s,其中s是DB中事务包含X和Y两者的百分比。规则 在事务集DB中具有置信度c,如果DB中包含X的事务同时也包含Y的百分比是c。 支持度是概率 。 置信度是概率 。 置信度可以表示规则的可信性,支持度表示模式在规则中出现的频率。具有高置信度和强支持度的规则被称为强规则。 挖掘关联规则的问题可以分两个阶段: 1.发掘大项集,也就是事务支持度s大于预先给定的最小阈值的项的集合。 2.使用大项集来产生数据库中置信度c大于预先给定的最小阈值的关联规则。 Apriori算法是解决这个问题的常用方法。 8.2 APRIORI算法 Apriori算法利用几次迭代来计算数据库中的频繁项集。第i次迭代计算出所有频繁i项集(包含i个元素的项集)。每一次迭代有两个步骤:产生候选集;计算和选择候选集。 在第一次迭代中,产生的候选集包含所有1-项集,并计算其支持度s,s大于阈值的1-项集被选为频繁1-项集。 第二次迭代时,Apriori算法首先去除非频繁1-项集,在频繁1-项集的基础上进行产生频繁2-项集。原理是:如果一个项集是频繁,那么它的所有子集也是频繁的。 例如,以表8-1中的数据为例。假设smin=50%。 在第一次迭代的第一步中,所有单项集都作为候选集,产生一个候选集列表。在下一步中,计算每一项的支持度,然后在smin的基础上选择频繁项集。图8-1中给出第一次迭代的结果。 在挖掘2-项集时,因为2-项集的任何子集都是频繁项集,所以Apriori算法使用L1*L1来产生候选集。*运算通常定义为: Lk*Lk={X∪Y 其中X,Y∈Lk,|X∩Y|=k+1} 注:|X∩Y|=k+1即X和Y合取容量为k+1 当k=1时,因此,C2包含在第二次迭代中作为候选集由运算|L1|·|L1-1|/2所产生的2-项集。本例中为:4·3/2=6。用该列表来扫描DB,计算每一个候选集的s,并与smin比较2-项集L2。图8-2给出了所有这些步骤和第二次迭代的结果。 候选集C3 运用L2*L2来产生,运算结果得到{A,B,C},{A,C,E},{B,C,E},但只有{B,C,E}的所有子集是频繁项集,成为候选的3-项集。然后扫描DB,并且挖掘出频繁3-项集,见图8-3所示。 因为本例的L3无法产生候选的4-项集,所以算法停止迭代过程。 该算法不仅计算所有频繁集的s,也计算那些没有被删除的非频繁候选集的s。所有非频繁但被算法计算s的候选项集的集合被称为负边界。因此,如果项集非频繁的,但它的子集都是频繁的,那么它就在负边界之中。 在本例中,负边界由项集{D},{A,B},{A,E} 组成。负边界在一些Apriori的改进算法中更为重要,例如生成大项集或导出负关联规则时提高了有效性。 8.3 从频繁项集得到关联规则 第二阶段的工作是在第一阶段的基础上,来挖掘关联规则。如果规则为{x1,x2,x3}→x4,那么项集{x1,x2,x3,x4}和{x1,x2,x3}都必须是频繁的。然后,规则置信度c= P({x4}|{x1,x2,x3})=s(x1,x2,x3,x4)/s(x1,x2,x3)。 置信度c大于给定的阈值的规则就是强规则。 例如,检验表8-1DB中的关联规则{B,C}→{E}是否为强关联规则。 由图8-2和图8-3可
文档评论(0)