数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅第6章.ppt

数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅第6章.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 关联分析 第六章 目录 6.1 问题定义 6.2 Apriori算法 6.3 频繁项集的紧凑表示 6.4 FP-growth算法 6.5 本章小结 引例(1) 关联分析的一个典型应用是购物篮分析。所谓购物篮分析就是在某商店的销售事务数据集中分析该商店的“大部分顾客会在一次购物中同时购买什么商品?”,以便对商品促销、布局等提供帮助。 例如,如果某食品商店通过购物篮分析得知“大部分顾客会在一次购物中同时购买面包和牛奶”,那么该食品商店通过降价促销面包有可能同时提高面包和牛奶的销量。 再例如,如果某儿童用品商店通过购物篮分析得知“大部分顾客会在一次购物中同时购买奶粉和尿片”,那么该儿童用品商店通过将奶粉和尿片分别放置在相距较远的地方,中间放置一些其他常用儿童用品,可能诱发顾客在购买奶粉和尿片时一路购买其他商品。 引例(2) 在购物篮分析中,我们用关联规则表示“在一次购物中同时购买的商品”的关联关系,用关联规则的支持度与置信度反映该关联规则对“大部分顾客”成立。 例如,在一次购物中同时购买面包和牛奶的关联关系可以用关联规则表示为:bread=milk。如果该关联规则的支持度为5%、置信度为70%,则表示全部顾客中5%同时购买面包和牛奶,购买面包的顾客中70%同时购买牛奶。 引例(3) 购物篮分析只是关联分析的一种形式与应用。事实上,关联分析可以分为许多种类。 1)根据分析的模式类型,可以分为项集模式、子序列模式与子结构模式。 2)根据分析的规则类型,可以分为关联规则和相关规则。 3)根据规则的值类型,可以分为布尔关联规则与量化关联规则。 4)根据规则的数据维(或谓词),可以分为单维关联规则与多维关联规则。 5)根据规则的抽象层,可以分为单层关联规则与多层关联规则。 6.1 问题定义(1) 设I={i1,i2,…,im}是项集合;T={t1,t2,…,tn}是事务集合,其中 。A=B称为T中的关联规则,其中 。 在事务集合T中,包含 的事务占全部事务的百分比称为T中关联规则A=B的支持度,记为 。 在事务集合T中,包含 的事务占包含A的事务的百分比称为T中关联规则A=B的置信度,记为 。 6.1 问题定义(2) 设min_sup是最小支持度阈值;min_conf是最小置信度阈值。如果事务集合T中的关联规则A=B同时满足 support(A=B)≥min_sup confidence(A=B)≥min_conf 则A=B称为T中的强关联规则。 关联规则挖掘就是在事务集合中挖掘强关联规则。 6.1 问题定义(3) 关联规则挖掘算法主要包括两个步骤: (1)产生频繁项集(支持度测试) 包含k个项的集合称为k-项集,记为Ik。 在事务集合T中,包含某k-项集Ik的事务数称为T中Ik的支持计数(或出现频率),记为sup_count(Ik)。 在事务集合T中,包含某k-项集Ik的事务占全部事务的百分比称为T中Ik的支持度,记为support(Ik)=P(Ik)。 设n是事务集合T中的事务数,即n=|T|。如果T中某k-项集Ik的支持计数满足 sup_count(Ik)≥n×min_sup 即support(Ik)≥min_sup 则Ik称为T中的频繁k-项集。所有T中的频繁k-项集集合记为Lk。 6.1 问题定义(4) 产生频繁项集就是找出支持度大于等于最小支持度阈值的关联规则。 例如,如果项集{a,b,c}是频繁3-项集,即support({a,b,c})=P({a,b,c})≥min_sup,那么, support(a=bc)=support(b=ac)=support(c=ab) = support(ab=c)=support(ac=b)=support(bc=a) = P({a,b,c})≥min_sup (2)产生强关联规则(置信度测试) 产生强关联规则就是在由频繁项集的项组成的关联规则中,找出置信度大于等于最小置信度阈值的关联规则。 在上述两个步骤中,关键是第一步骤,它的效率影响整个关联规则挖掘算法的效率。因此,关联规则挖掘算法的核心是频繁项集产生方法。 6.2 Apriori算法 6.2.1 频繁项集产生(1) 1. Apriori性质 定理6.1 如果一个项集Ii是频繁项集,则它的所有非空子集Ij一定也是频繁项集。该定理也称为Apriori性质。 证明:

您可能关注的文档

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档