第4章 关联规则1课件.pptVIP

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 关联规则1课件

数据仓库与数据挖掘技术 ;关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一 最早是由R.Agrawal等人提出的 其目的是为了发现超市交易数据库中不同商品之间的关联关系。 一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。 经典的关联规则挖掘算法:Apriori算法和FP-growth算法 ;1. 购物篮分析-引发关联规则挖掘的例子 问题:“什么商品组或集合顾客多半会在一次购物中同时购买?” 购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。;〖例〗购买计算机与购买财务管理软件的关联规则可表示为: computer financial_management_software [support=2%,confidence=60%] support为支持度,confidence为置信度。 该规则表示:在所分析的全部事务中,有2%的事务同时购买计算机和财务管理软件;在购买计算机的顾客中60%也购买了财务管理软件。;2. 关联规则 关联(Associations)分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。 项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系。 ;以商场超市的市场数据库为例,形式化地描述关联规则。 〖定义4-1〗 设I={i1,i2,…,im}是项的集合,表示各种商品的集合;D= {t1,t2,…,tn}为交易集,表示每笔交易的集合(是全体事务的集合)。其中每一个事务T都是项的集合,且有T?I。每个事务都有一个相关的唯一标识符和它对应,也就是事务标识符或TID。 设X为一个由项目构成的集合,称为项集,当且仅当X?T时我们说事务T包含X。 项集X在在事务数据库DB中出现的次数占总事务的百分比叫做项集的支持度。 如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。 ;关联规则是形如X?Y??蕴含式,其中X?I,Y?I且X?Y=?,则X称为规则的条件,Y称为规则的结果。 如果事务数据库DB中有s%的事务包含X?Y,则称关联规则X?Y的支持度为s%。支持度是一个概率值。;一个简单事务数据库模型;〖定义4-2〗关联规则 X?Y对事物集D的支持度(support)定义为D中包含有事务X和Y的百分比。关联规则X?Y对事务集合D的置信度(confidence)定义为D中包含有X的事务数与同时包含Y的百分比。即: l?support(X?Y)=(包含X和Y的事务数/事务总数)×100% ? l?confidence(X?Y)=(包含X和Y的事务数/包含X的事务数)×100% ;〖定义4-3〗置信度和支持度均大于给定阈值(即最小置信度阈值和最小支持度阈值)。即: support(X?Y) = min_sup confidence(X?Y) = min_conf 的关联规则称为强规则;否则称为弱规则。 数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小置信度可以了解某些数据之间的关联程度。 ;强规则X?Y对应的项集(X∪Y)必定是频繁集。因此,可以把关联规则挖掘划分为以下两个子问题: 根据最小支持度找出事务集D中的所有频繁项集。―核心 根据频繁项集和最小置信度产生关联规则。―较易 ;3. 关联规则挖掘 关联规则挖掘:给定一组Item和记录集合,挖掘出Item间的相关性,使其置信度和支持度分别大于用户给定的最小置信度和最小支持度。;4.关联规则挖掘的分类 (1)?基于规则中处理的变量的类别 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则:如果规则考虑的关联是项“在”或“不在”,则关联规则是布尔型的。例如,由购物篮分析得出的关联规则。 量化型关联规则:如果描述的是量化的项或属性之间的关联,则该规则是量化型的关联规则。 ;例如: 以下是量化型关联规则的一个例子(其中X为表示顾客的变量,量化属性age 和income已经离散化): age(X,“30…39”)∧income(“42K…48K”) buys(X,“high_resolution_TV”) 量化型关联规则中也可以包含多种变量。例如: 性别=“女”=职业=“秘书” ,是布尔型关联规则; 性别=“女”=avg(月收入)=2300,涉及的收入是数值类型,所以是一个量化型关联规则。 ;(2)基于规则中数据

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档