《数据仓库与数据挖掘》第8章(关联规则).docVIP

  • 45
  • 0
  • 约1.9万字
  • 约 36页
  • 2016-10-19 发布于重庆
  • 举报

《数据仓库与数据挖掘》第8章(关联规则).doc

《数据仓库与数据挖掘》第8章(关联规则)

第8章 关联规则挖掘 主要内容 关联规则挖掘的基本概念 关联规则挖掘的过程 Apriori算法 Apriori算法的变形 频繁模式增长(FP-增长)算法 其他关联规则挖掘算法 关联规则价值衡量的方法 关联规则挖掘的应用 8.1关联规则挖掘的基本概念 1. 购物篮分析-引发关联规则挖掘的例子 问题:“什么商品组或集合顾客多半会在一次购物中同时购买?” 购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。 〖例〗购买计算机与购买财务管理软件的关联规则可表示为: computer financial_management_softwar [support=2%,confidence=60%] support为支持度,confidence为置信度。 该规则表示:在所分析的全部事务中,有2%的事务同时购买计算机和财务管理软件;在购买计算机的顾客中60%也购买财务管理软件。 2. 关联规则 关联(Associations)分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。 项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系。 〖定义8-1〗 令I={i1,i2,…,in}是项目集,D是全体事务的集合。事务T是I上的一个子集,集合T(I,每个事务用唯一的标志TID来标识。关联规则是形如X(Y的蕴含式,其中X(I,Y(I且X(Y=(,X称为规则的条件,Y称为规则的结果。 2. 置信度和支持度 〖定义8-2〗关联规则 X(Y对事物集D的支持度(support,)定义为D中包含有事务X和Y的百分比。关联规则X(Y对事务集合D的置信度(confidence)定义为D中包含有X的事务数与同时包含Y的百分比。即: support(X(Y)=(包含X和Y的事务数 / 事务总数)×100% confidence(X(Y)= (包含X和Y的事务数 / 包含X的事务数)×100% 〖定义8-3〗置信度和支持度均大于给定阈值(即最小置信度阈值和最小支持度阈值)。即: support(X(Y) = min_sup confidence(X(Y) = min_conf 的关联规则称为强规则;否则称为弱规则。 数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小置信度可以了解某些数据之间的关联程度。 强规则X(Y对应的项集(X∪Y)必定是频繁集。因此,可以把关联规则挖掘划分为以下两个子问题: 根据最小支持度找出事务集D中的所有频繁项集。――核心 根据频繁项集和最小置信度产生关联规则。――较易 3. 关联规则挖掘 关联规则挖掘:给定一组Item和记录集合,挖掘出Item间的相关性,使其置信度和支持度分别大于用户给定的最小置信度和、最小支持度。 〖例〗 购买商品事务如下表所示,设最小支持度为50%, 最小可信度为 50%, 则可得到以下关联规则: A ( C (50%, 66.6%) C ( A (50%, 100%) 4.关联规则挖掘的分类 (1)?基于规则中处理的变量的类别 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则:如果规则考虑的关联是项“在”或“不在”,则关联规则是布尔型的。例如,由购物篮分析得出的关联规则。 量化型关联规则:如果描述的是量化的项或属性之间的关联,则该规则是量化型的关联规则。例如,以下是量化型关联规则的一个例子(其中X为表示顾客的变量,量化属性age 和income已经离散化): age(X,“30…39”)∧income(“42K…48K”) buys(X,“high_resolution_TV”) 量化型关联规则中也可以包含多种变量。例如: 性别=“女”=职业=“秘书” ,是布尔型关联规则; 性别=“女”=avg(月收入)=2300,涉及的收入是数值类型,所以是一个量化型关联规则。 (2)基于规则中数据的抽象层次 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 单层的关联规则:所有的变量都不涉及不同抽象层次的项或属性。 例如: buys(X, “computer”) buys(X, “printer”) 顾客X购买的商品不涉及不同抽象层次(“computer” 和“printer”在同一个抽象层),因此是单层关联规则。 多层的关联规则:变量

文档评论(0)

1亿VIP精品文档

相关文档