第八章-关联规则挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章 关联规则的挖掘 一、关联规则挖掘的含义 关联规则用于表示OLTP数据库中诸多属性(项集)之间的关联程度。 关联规则挖掘( Association Rules Mining)则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。 例:(超级市场)在购买商品A的客户中有90%的人会同时购买商品B,则可用关联规则表示为: 关联规则 支持度(Support):同时购买A和B的客户人数占总客户数的百分比称为规则的支持度。 置信度(Confidence):同时购买A和B的客户人数占购买A的客户人数的百分比称为规则的置信度。 由于在实际应用中,概率P一般是无法事先给出的,所以常以频度代替 关联规则(图示) 有意义的关联规则 为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小置信度。 关联规则挖掘的实质是在数据集合中寻找满足用户给定的最小支持度和最小置信度的规则。例:交易情况如下表,要求最小支持度为50%, 最小可信度为 50%, 则可得到: 二、关联规则挖掘算法Apriori 1、术语 项集:在数据库中出现的属性值的集合。 K_项集:包含K个项的项集。 频繁项集:满足最小支持度要求的项集。 关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的,因此,关联规则挖掘也就是在数据库中寻找频繁项集的过程。 示例 2、关联规则分类 1)根据规则中所处理的值类型 布尔关联规则:规则考虑的关联项是否存在 量化关联规则:规则描述的是量化的项或属性间的规则 2、关联规则分类 2)根据规则中所涉及的数据维 是单维的,涉及buys; 多维,涉及年龄、收入和buys 3)根据规则中所涉及的抽象层 商品位于不同层,计算机的抽象层高,称为多层关联规则 3、 Apriori算法 4、算法伪代码 5、关联规则挖掘示例(最小支持数2) 6、产生的关联规则 前面的例子中,得到一个频繁集{ 2,3,5},非空真子集有{2},{3},{5},{2,3},{2,5},{3,5} 7、Apriori 的性能瓶颈 Apriori算法的核心: 用频繁的(k-1)_项集生成候选的频繁 k_项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成 巨大的候选集: 104 个频繁1_项集要生成 107 个候选 2_项集 要找尺寸为100的频繁模式,如 {a1, a2, …, a100}, 你必须先产生2100 ? 1030 个候选集(1_项集) 多次扫描数据库: 如果最长的模式是n的话,则需要n次数据库扫描 为提高Apriori算法的性能,有许多改进的算法。 8、如何在概念分层挖掘多层关联规则 一般采用自顶向下策略,由概念的顶层开始向下,到较低的更特定的概念层,对每个概念层的频繁集累加计数,直到不能再找到频繁项集。 对于所有层使用一致的最小支持度 8、如何在概念分层挖掘多层关联规则 一般采用自顶向下策略,由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁集累加计数,直到不能再找到频繁项集。 对于所有层使用一致的最小支持度 在较低层使用递减的最小支持度 9、冗余的多层关联规则处理 买笔记本?买打印机 [支持度=8%,置信度=70%] (1) 买IBM笔记本?买打印机 [支持度=2%,置信度=72%] (2) 规则2有用吗?它提供了新颖的信息吗? 从(1)的置信度=70%推断:买笔记本同时买打印机的交易数/买笔记本交易数=70%。IBM笔记本属于笔记本,因此置信度也应该在70%左右。由(2)实际为72%,基本无差异。 如果后一个具有较小一般性的规则,它不提供新的信息,应当删除它! 9、冗余的多层关联规则处理 从(1)的支持度=8%推断:买笔记本同时买打印机的交易数/总交易数=8%,假定从数据集中还发现,IBM笔记本在占整个笔记本销量的25%。 则:买IBM笔记本的支持度应该为8%*25%=2%,由(2)实际为2%,两者相同。 如果一个规则的祖先,它的支持度和置信度都接近于该规则的“期望”值,这个规则是冗余的。 结论:规则(2)不是有趣的,因为它不提供有趣的信息 10、关联规则的相关分析 强关联规则不一定有趣 例:在10000个交易中,6000个顾客交易包含计算机游戏,7500个顾客交易包含影碟机,4000个交易包含计算机游戏和影碟机。 规则其实是误导,因为购买影碟机的可能性是75%,比66%还大。事实是:计算机游戏和影碟机是负相关的。 10、关联规则的相关分析 * * 购买A的顾客 购买B的顾客 同时购买A和B的顾客(A?B) ID号 购买的商品 001 A,B,C 002 A,C 003 A,D 004 B,E,F A ? C (50%, 66.

文档评论(0)

金华 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档