数据挖掘关联规则挖掘基本概念与Aprior算法.docx

下载文档

8
0
约3.28千字
约 6页
2016-12-04 发布于重庆
举报
版权申诉
保障服务

数据挖掘关联规则挖掘基本概念与Aprior算法.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘（1）：关联规则挖掘基本概念与Aprior算法2015/08/28 ·?IT技术?·?1 评论?·?数据挖掘分享到：12Spring MVC起步PHP开发APP接口PHP7.0新特性MySQL5.7复制功能实战原文出处：?fengfenggirl（@也爱数据挖掘）?我计划整理数据挖掘的基本概念和算法，包括关联规则挖掘、分类、聚类的常用算法，敬请期待。今天讲的是关联规则挖掘的最基本的知识。关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用，本篇文章将介绍一些基本知识和Aprori算法。啤酒与尿布的故事已经成为了关联规则挖掘的经典案例，还有人专门出了一本书《啤酒与尿布》，虽然说这个故事是哈弗商学院杜撰出来的，但确实能很好的解释关联规则挖掘的原理。我们这里以一个超市购物篮迷你数据集来解释关联规则挖掘的基本概念：TIDItemsT1{牛奶,面包}T2{面包,尿布,啤酒,鸡蛋}T3{牛奶,尿布,啤酒,可乐}T4{面包,牛奶,尿布,啤酒}T5{面包,牛奶,尿布,可乐}表中的每一行代表一次购买清单（注意你购买十盒牛奶也只计一次，即只记录某个商品的出现与否）。数据记录的所有项的集合称为总项集，上表中的总项集S={牛奶,面包,尿布,啤酒,鸡蛋,可乐}。?一、关联规则、自信度、自持度的定义关联规则就是有关联的规则，形式是这样定义的：两个不相交的非空集合X、Y，如果有X–Y，就说X–Y是一条关联规则。举个例子，在上面的表中，我们发现购买啤酒就一定会购买尿布，{啤酒}–{尿布}就是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述，支持度的定义：support(X–Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数据记录的个数。例如：support({啤酒}–{尿布}) = 啤酒和尿布同时出现的次数/数据记录数 = 3/5=60%。自信度的定义：confidence(X–Y) = |X交Y|/|X| = 集合X与集合Y中的项在一条记录中同时出现的次数/集合X出现的个数。例如：confidence({啤酒}–{尿布}) = 啤酒和尿布同时出现的次数/啤酒出现的次数=3/3=100%;confidence({尿布}–{啤酒}) = 啤酒和尿布同时出现的次数/尿布出现的次数 = 3/4 = 75%。这里定义的支持度和自信度都是相对的支持度和自信度，不是绝对支持度，绝对支持度abs_support = 数据记录数N*support。支持度和自信度越高，说明规则越强，关联规则挖掘就是挖掘出满足一定强度的规则。?二、关联规则挖掘的定义与步骤关联规则挖掘的定义：给定一个交易数据集T，找出其中所有支持度support = min_support、自信度confidence = min_confidence的关联规则。有一个简单而粗鲁的方法可以找出所需要的规则，那就是穷举项集的所有组合，并测试每个组合是否满足条件，一个元素个数为n的项集的组合个数为2^n-1(除去空集)，所需要的时间复杂度明显为O(2^N)，对于普通的超市，其商品的项集数也在1万以上，用指数时间复杂度的算法不能在可接受的时间内解决问题。怎样快速挖出满足条件的关联规则是关联挖掘的需要解决的主要问题。仔细想一下，我们会发现对于{啤酒–尿布}，{尿布–啤酒}这两个规则的支持度实际上只需要计算{尿布，啤酒}的支持度，即它们交集的支持度。于是我们把关联规则挖掘分两步进行：1）生成频繁项集这一阶段找出所有满足最小支持度的项集，找出的这些项集称为频繁项集。2）生成规则在上一步产生的频繁项集的基础上生成满足最小自信度的规则，产生的规则称为强规则。关联规则挖掘所花费的时间主要是在生成频繁项集上，因为找出的频繁项集往往不会很多，利用频繁项集生成规则也就不会花太多的时间，而生成频繁项集需要测试很多的备选项集，如果不加优化，所需的时间是O(2^N)。?三、Apriori定律为了减少频繁项集的生成时间，我们应该尽早的消除一些完全不可能是频繁项集的集合，Apriori的两条定律就是干这事的。Apriori定律1)：如果一个集合是频繁项集，则它的所有子集都是频繁项集。举例：假设一个集合{A,B}是频繁项集，即A、B同时出现在一条记录的次数大于等于最小支持度min_support，则它的子集{A},{B}出现次数必定大于等于min_support，即它的子集都是频繁项集。Apriori定律2)：如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。举例：假设集合{A}不是频繁项集，即A出现的次数小于min_support，则它的任何超集如{A,B}出现的次数必定小于min_support，因此其超集必定也不是频繁项集。利用这两条定律，我们抛掉