- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[经济学]第6章 数据挖掘技术2关联规则挖掘
第 六 章 数 据 挖 掘 6.2关联规则挖掘 6.2.1关联规则的挖掘原理 6.2.2Apriori算法基本思想 6.2.3Apriori算法 购物篮分析—引发关联规则挖掘的例子 关联规则(Association Rule)挖掘是发现大量数据中项集之间的关联关系。 发现常在一起被购买的商品(关联知识)将帮助商家制定有针对性的市场营销策略。 1. 基本原理 设I={i1,i2,…,im}是项(Item)的集合。记D为事务(Transaction)的集合(事务数据库),事务T是项的集合,并且T?I。 定义1:关联规则是形如A?B的蕴涵式,这里A?I,B?I,并且A?B=?。 基本概念——示例 项目集 I={牛奶,面包,黄油,鸡蛋,果酱,糖 } 定义2:规则的支持度。 规则A?B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即: 其中|D|表示事务数据库D的个数, |AB|表示A、B两个项集同时发生的事务个数。 定义3:规则的可信度 规则A?B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A),即: 其中 表示数据库中包含项集A的事务个数。 基本概念——示例 S =? C=? 定义4:阈值。 在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。 定义5:强关联规则。同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为强关联规则 定义6:如果项集满足最小支持度,则它称之为频繁项集(Frequent Itemset)。 2. 关联规则挖掘过程 关联规则的挖掘一般分为两个过程: (1)找出所有的频繁项集:找出支持度大于最小支持度的项集,即频繁项集。 (2)由频繁项集产生关联规则:根据定义,这些规则必须满足最小支持度和最小可信度。 3、关联规则挖掘分类 (1) 根据规则中所处理的值类型 布尔关联规则(项集的存在与否) 量化关联规则(规则描述的是量化的属性间的关联性) 根据规则中涉及的数据维 单维关联规则 (仅涉及buys这个维) 多维关联规则 性别=“女”=职业=“秘书” 关联规则挖掘分类 (2) 根据规则中所涉及的抽象层次 单层关联规则 Buys ( X, “computer”) ?Buys ( X, “printer”) 多层关联规则 (在不同的抽象层发现关联规则) 最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。 Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法。 6.2.2Apriori算法的基本思想: Apriori是挖掘关联规则的一个重要方法。 算法分为两个子问题: 找到所有支持度大于最小支持度的项集(Itemset),这些项集称为频繁集(Frequent Itemset)。 使用第1步找到的频繁集产生规则。 Apriori 使用一种称作逐层搜索的迭代方法,“K-项集”用于探索“K+1-项集”。 1.首先,找出频繁“1-项集”的集合。该集合记作L1。L1用于找频繁“2-项集”的集合L2,而L2用于找L3, 如此下去,直到不能找到“K-项集”。找每个LK需要一次数据库扫描。 2.“K-项集”产生“K+1-项集” 设K-项集LK,K+1项集LK+1,产生LK+1的候选集CK+1。有公式: 连接:为了找Lk+1,通过Lk与自己连接产生候选(k+1) -项集的集合,该候选k+1项集记为Ck。 连接的条件:每个项目集除了一个项目之外其他的项目都相同。 其中C1是1-项集的集合,取自所有事务中的单项元素。 Apriori算法程序 首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,算法停止。 在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频繁集做一个连接来产生的。Ck中的项集是用来产生频繁集的候选集,最后的频繁集Lk必须是Ck的一个子集。 Agrawal等引入了修剪技术来减小候选集Ck的大小 。 一个项集是频繁集当且仅当它的所有子集都是频繁集。 如果Ck中某个候选项集有一个(k-1)-子集不属于Lk-1,则这个项集可以被修剪掉不再被考虑 。 5、Apriori算法的执行过程示例: 设有事务数据库,有9个事务。 假定最小支持计数为2(即min_sup=2/9=22%),最小可信度为80 % 。 求候选3项集C3。C3=L2 ∞ L2 C3={{I1,I2},{I1,I3},{I1
文档评论(0)