Lecture 4 关联规则挖掘教学文稿.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lecture 4 关联规则挖掘教学文稿.ppt

2018-5-23 Data Mining 1 数据挖掘: 概念与技术 王家兵 博士 华南理工大学计算机科学与工程学院 E-mail: jbwang@scut.edu.cn 2018-5-23 Data Mining 2 Lecture 4: 挖掘关联规则 什么是关联规则:一个示例 若干基本概念 挖掘单维布尔关联规则的Apriori算法 改进基于频繁模式树的算法 2018-5-23 Data Mining 3 示例-购物篮 序号 购买的商品内容 购买1 牛奶、面包、啤酒、花生 购买2 牛奶、面包、黄油 购买3 牛奶、面包、鸡蛋 购买4 糖、鸡蛋、啤酒、花生 购买5 黄油、鸡蛋、啤酒、花生 购买6 糖、鸡蛋、面包、花生 买牛奶就买面包?买啤酒就买花生? 2018-5-23 Data Mining 4 示例-关键词 序号 论文的关键词 论文1 数据挖掘、机器学习、聚类分析 论文2 机器学习、贝叶斯分类、信息提取、数据挖掘 论文3 自动推理、机器学习、算法复杂性分析 论文4 数据挖掘、空间推理、空间聚类分析、机器学习 数据挖掘机器学习 2018-5-23 Data Mining 5 Lecture 4: 挖掘关联规则 什么是关联规则:一个示例 若干基本概念 挖掘单维布尔关联规则的Apriori算法 改进基于频繁模式树的算法 2018-5-23 Data Mining 8 基本概念 III 最小支持度与最小置信度:由用户提供,即挖掘出的关联规则的支持度与置信度必须分别大于最小支持度与最小置信度。 2018-5-23 Data Mining 9 基本概念 IV 支持度计数:模式或项集在DB中出现的频率(次数)。 频繁模式(频繁项集):支持度大于或等于最小支持度(用户自定义)的模式(项集)。 关联规则挖掘的任务:发现所有满足最小支持度与最小可信度、形如XY的规则。 2018-5-23 Data Mining 10 支持度的计算 2018-5-23 Data Mining 11 置信度的计算 2018-5-23 Data Mining 12 支持度与置信度的计算—示例 对于规则 A  C: support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6% 最小支持度: 50% 最小置信度: 50% Transaction-id Items bought 10 A, B, C 20 A, C 30 A, D 40 B, E, F 频繁模式 Support {A} 75% {B} 50% {C} 50% {A, C} 50% 2018-5-23 Data Mining 13 Apriori算法 什么是关联规则:一个示例 若干基本概念 挖掘单维布尔关联规则的Apriori算法 改进基于频繁模式树的算法 2018-5-23 Data Mining 14 单维布尔关联规则 对于规则XY,其中 X={x1, …, xk}, Y={y1, …, ym} ,即:如果买X,那么买Y,或为 If Buys(p, X)  Buys(p, Y) 。这里的买或者Buys是一个二元谓词。在我们这里只牵涉到一个谓词,因此称为单维关联规则; 同时因为只涉及到买还是不买,因此称为布尔关联规则。 2018-5-23 Data Mining 15 其它形式的关联规则 多维关联规则:规则中有两个以上的谓词。 量化关联规则(Quantitative association rule):描述量化的项或属性之间的关联。 例如: Age(X, “30到40”)Income(X, “4万-6万”)Buys(X, “computer”) 2018-5-23 Data Mining 16 挖掘单维布尔关联规则:穷举法 设事务表中有n件不同的商品{x1, x2, …, xn},显然有穷举法如下: 对于从2-项集到n-项集,枚举所有的集合检查其子项集之间是否存在关联。如对于2-项集,检查是否存在关联规则xi xj(i  {1, 2 …, n}, j  {1, 2 …, n}, i  j) 2018-5-23 Data Mining 17 挖掘单维布尔关联规则:穷举法 那么这种方法是否实用呢? 若对这么多子集进行测试,算法的时间复杂性如何? 显然,一个n个元素集合有2n子集(对于我们这个问题,有2n - n - 1个子集) 2018-5-23 Data Mining 18 2018-5-23 Data Mining 19 表2 计算机速度提高10倍后, 不同算法复杂性求解规模的扩大情况 算法 A1 A2 A3 A4 A5 A6 时间复杂性 n nlogn n2 n

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档