- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章 关联分析 Apriori算法及应用 关联规则的定义 关联规则的应用实例 在美国,一些年轻的父亲下班后经常到沃尔玛超市去买婴儿尿布,超市也因此发现了一个规律: 在购买婴儿尿布的年轻父亲中,有30%~40%的人同时购买一些啤酒。 超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 关联规则的应用实例 可以帮助商家采取相应的销售策略,例如: 关联规则的应用实例 将商场所有商品设为一个集合。 每个商品(item)均为一个取布尔值(真/假)的变量 分析相应布尔向量就可获得哪些商品是一起被购买(关联)的购物模式。 如顾客购买电脑的同时也会购买金融管理软件的购物模式就可以用以下的关联规则来描述: 关联规则挖掘的基本概念 事务 某个客户在一次交易中发生的所有项目的集合;组成事务的项目集合是I上的一个子集;每个事务都有一个唯一的标识tid tk={i1,i2,…,im…,ip} ,tk(k=1,2,…,n)称为事务, 关联规则挖掘的基本概念 事务数据库 关联规则挖掘的数据集记为D D={t1,t2,…tk…tn},由一系列具有唯一标识tid的事务组成 关联规则挖掘的基本概念 项 事务数据库中的一个属性字段,每个字段有一定的取值范围;对于超市数据,项是指交易中的特定商品 im(m=1,2,…,p)称为项(Item) 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的基本概念 关联规则挖掘的步骤 Apriori算法 Apriori算法 Apriori算法 Apriori算法 Apriori算法 Apriori算法 Apriori算法 Apriori算法实例 Apriori算法的改进 问题 Apriori算法是一种多层迭代算法。如果数据集合中项数为n,则Apriori算法将要计算2n-1个项目。当n较大时,会产生组合爆炸问题。 改进 减少扫描事务数据库的次数,降低I/O代价 减少计算候选项集支持度的时间 引入抽样技术 引入并行算法 Apriori算法的改进 动态项集计数方法 Brin等提出了动态项集计数方法。其基本思想是在对K-项集进行支持度计算的同时也对某些(K+1)-项集进行支持度计算,以便提高每次扫描数据库的效益,从而减少对事务数据库的扫描次数 Apriori算法的改进 基于散列表的方法 Park等提出了采用哈希技术(hash)对候选项集进行剪枝的DHP(Dynamic Hashing and Pruning)算法。 研究表明,在生成和发现频繁2-项集时非常耗时,DHP算法试图通过直接hash剪枝修剪技术快速发现频繁2-项集,以提高关联规则挖掘的效率 Apriori算法的改进 分区方法 Savasere等人提出了一种发现频繁项集的划分方法,这是一种常见而有效的算法设计思想 算法思想 第一阶段,将数据库划分为n个互不相交的部分,每个部分都可以在内存中处理;每个部分独立地生成所有频繁项集的集合 第二阶段,归并全部n个部分的长度相同的频繁项集;扫描事务数据库,收集每个候选集的支持度 Apriori算法的改进 随机抽样 Toivnen提出了采用随机抽样技术的关联规则挖掘方法,可以节约相当可观的I/O代价。 由于数据分布往往不均匀,随机抽样可能引起数据倾斜,从而影响挖掘结果精度 Lin和Durham提出了克服数据倾斜的关联规则挖掘算法,该算法将数据库的扫描次数降至最多两次 AprioriTid算法 AprioriTid算法 AprioriTid算法实例 AprioriHybrid算法 FP_Growth算法 Apriori算法的缺点 需要多次扫描数据库。当候选项集的最大长度为K时,需要扫描K遍数据库,导致巨大的I/O开销 寻找频繁项集的时候,产生大量的候选项集,计算量巨大 FP_Growth算法 FP_Growth算法策略 频繁模式增长(Frequent Pattern Growth, FP_Growth)是一种挖掘全部频繁项集而不产生候选项集的方法 策略 将提供频繁项集的数据库压缩到一颗频繁模式树,仍然保留项集关联信息 将压缩后的数据库划分成一组条件数据库,每个关联一个频繁项,并分别挖掘每个条件数据库 关联规则的扩展 多层次关联规则 如果将数据项沿概念层次向上提升,则会使多个
文档评论(0)