第4章 关联分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 关联分析

(C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 第4章 关联分析 问题定义 频繁项集的产生 关联规则的产生 关联模式的评估 关联分析中的事务数据处理 多层关联规则 序列模式 4.1 问题定义 什么是关联分析 关联分析中的基本概念 购物篮数据的二元表示 项集和支持度计数 关联规则 支持度 置信度 关联规则挖掘分类 关联规则挖掘问题的形式描述 关联规则挖掘任务分解 频繁项集产生 规则的产生 4.1.1 什么是关联分析 关联分析(association analysis)用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。 关联分析可以应用于购物篮分析、交叉销售、医疗诊断、网页挖掘、科学数据分析等。 4.1.2 关联分析中的基本概念 购物篮数据的二元表示 如果问题的全域是商店中所有商品的集合,则对每种商品称为一个项; 每个购物篮即顾客的一次购买称为一个事务,它对应购物篮数据集中的一行 ,而购物篮数据集的每一列对应一个项; 项可以用一个二元的布尔量(0/1)来表示,如果项在事务中出现,则它的值为1,否则为0。即表示商品是否被顾客购买,用1表示购买,用0表示没有购买; 因此,一个事务可以用一个布尔向量表示; 通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示。 购物篮数据的二元0/1表示 4.1.2 关联分析中的基本概念 项集(Itemset) 包含0个或多个项的集合 例: {Milk, Bread, Diaper} k-项集:包含k个项的集合 例: {Milk, Bread, Diaper}是个3-项集 每个事务T由事务标识符TID标识,它是项的集合 例: TID(4)={Bread, Milk, Diaper , Coke} 任务相关数据D是事务数据的集合 支持度计数(Support count )(?) 包含特定项集的事务个数 例如: ?({Milk, Bread,Diaper}) = 2 支持度(Support) 包含项集的事务数与总事务数的比值 例如: s({Milk, Bread, Diaper}) = 2/5 频繁项集(Frequent Itemset) 满足最小支持度阈值( minsup )的所有项集 关联规则 关联规则的形式化定义 给定: 项的集合:I={i1,i2,...,in} 任务相关数据D是事务数据的集合,每个事务T则是项的集合,使得 每个事务由事务标识符TID标识; A,B为两个项集,事务T包含A当且仅当 则关联规则是如下蕴涵式: 其中 并且 ,规则 在事务集D中成立,并且具有支持度s和置信度c。 4.1.3 关联规则挖掘分类 关联规则有多种分类: 根据规则中所处理的值类型 布尔关联规则 量化关联规则(规则描述的是量化的项或属性间的关联性) 根据规则中涉及的数据维 单维关联规则 (仅涉及buys这个维) 多维关联规则 根据规则集所涉及的抽象层 单层关联规则 多层关联规则 (在不同的抽象层发现关联规则) 根据关联挖掘的各种扩充(略) 4.1.3 关联规则挖掘问题的形式描述 关联规则挖掘问题:给定事务的集合 T, 关联规则发现是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有规则, minsup和minconf是对应的支持度和置信度阈值 挖掘关联规则的一种原始方法是:Brute-force approach: 计算每个可能规则的支持度和置信度 这种方法计算代价过高,因为可以从数据集提取的规则的数量达指数级 从包含d个项的数据集提取的可能规则的总数R=3d-2d+1+1,如果d等于6,则R=602 4.1.4 关联规则挖掘任务分解 大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务: 频繁项集产生(Frequent Itemset Generation) 其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。 规则的产生(Rule Generation) 其目标是从上一步发现的频繁项集中提取所有满足最小置信度阈值的规则,这些规则称作强规则(strong rule)。 4.2 频繁项集产生 频繁项集产生 Brute-force 方法: 把格结构中每个项集作为候选项集 将每个候选项集和每个事务进行比较,确定每个候选项集的支持度计数。 这种方法

文档评论(0)

xxj1658888 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档