第5章关联汇编.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 关联分析;5.1 关联分析的概念;  定义5.2 由I中部分或全部项构成的一个集合称为项集(itemset),任何非空项集中均不含有重复项。   如I1={i1,i3,i4}就是一个项集。为了算法设计简单,本章中除特别声明外,假设所有项集中列出的各个项均按项序号或字典顺序有序排列。;  购物篮问题:设I是全部商品集合,D是所有顾客的购物清单,每个元组即事务是一次购买商品的集合。   如表5.1所示是一个购物事务数据库的示例,其中,I={i1,i2,i3,i4,i5},D={t1,t2,t3,t4,t5,t6,t7,t8,t9},t1={i1,i2,i5},…,t9={i1,i2,i3}。;  购物篮问题是关联分析的一个典型例子,每种商品有一个布尔变量,顾客购买某商品,对应的布尔变量为true,否则为false,可以将一个事务看成是一个购物篮,购物篮可用一个为这些变量指定值的布尔向量表示。   例如,t1={i1,i2,i5},表示对应i1、i2、i5的变量取值为true,其余为false。可以分析这些布尔向量,得出反映商品频繁关联或同时购买的购买模式。这些模式可以用关联规则的形式表示。;5.1.2 关联规则及其度量;2. 支持度;  显然,support(X→Y)与support(Y→X)是相等的。例如,在表5.1的事务数据库D中,总的元组数为9,同时包含i1和i2的元组数为4,则support(i1→i2)=support(i2→i1)=4/9=0.44,这里相当于X={i1},Y={i2}。;  支持度是一种重要性度量,因为低支持度的规则可能只是偶然出现。   从实际情况看,低支持度的规则多半是没有意义的。   例如,顾客很少同时购买a、b商品,想通过对a或b商品促销(降价)来提高另一种商品的销售量是不可能的。;3. 置信度;  置信度确定通过规则进行推理具有的可靠性。对于规则X→Y,置信度越高,Y在包含X的事务中出现的可能性越大。   显然confidence(X→Y)与confidence(Y→X)不一定相等。例如,在表5.1的事务数据库D中,同时包含i1和i2的元组数为4,仅包含i1的元组数为6,仅包含i2的元组数为7,则confidence(i1→t2)=4/6=0.67,support(i2→t1)=4/7=0.57。;对于形如X→Y关联规则,support(X→Y)≤confidence(X→Y)总是成立的。;  定义5.5 给定D上的最小支持度(记为min_sup)和最小置信度(记为min_conf),分别称???最小支持度阈值和最小置信度阈值,同时满足最小支持度阈值和最小置信度阈值的关联规则称为强关联规则。   也就是说,某关联规则的最小支持度≥min_sup、最小置信度≥min_conf,则它为强关联规则。;5.1.3 频繁项集;  定义5.7 对于I的非空子集I1,若某项集I1中包含有I中的k个项,称I1为k-项集。   若k-项集I1是频繁项集,称为频繁k-项集。显然,一个项集是否频繁,需要通过事务数据库D来判断。;5.1.4 挖掘关联规则的基本过程;挖掘强关联规则两个基本步骤如下:;找频繁项集最简单的算法如下:;5.2 Apriori算法;5.2.1 Apriori性质;;  Apriori性质具有反单调性:如果一个项集不是频繁的,则它的所有超集也一定不是频繁的。   证明:设n为事务总数,A不是频繁的,即support(A)min_sup。对于A的任一超集,由于A?C,所以:    sup_count(C)≤sup_count(A) 则: support(C)=sup_count(C)/n≤sup_count(A)/n=         support(A)min_sup。;5.2.2 Apriori算法;  首先,找出频繁1-项集,用L1表示。   由L1寻找C2,由C2产生L2,即产生频繁2-项集的集合。   由L2寻找C3,由C3产生L3。   以此类推,直至没有新的频繁k-项集被发现。求每个Lk时都要对事务数据库D作一次完全扫描。;基本的Apriori算法如下:;  【例5.1】对于表5.1所示的事务数据库,设min_sup=2,产生所有频繁项集的过程如图5.1所示,最后L4=Ф,算法结束,产生的所有频繁项集为L1∪L2∪L3。;上述算法需要解决以下问题:;2. 自连接:由Lk-1构建Ck;  采用自连接的方式由Lk-1产生Ck时,连接关系是在Lk-1(用p表示)和Lk-1(用q表示)中,前k-2项相同,且p的第k-1项小于q的第k-1项值,即:;如图5.3所示是由L3产生C4的过程;3. 对Ck进行剪枝操作;  【例5.2】设L3={{i1,i2,i3},{i1,i2,i4

文档评论(0)

***** + 关注
实名认证
内容提供者

我是自由职业者,从事文档的创作工作。

1亿VIP精品文档

相关文档