大数据应用基础-关联规则21.pptVIP

  • 2
  • 0
  • 约2.14千字
  • 约 21页
  • 2019-06-07 发布于河南
  • 举报
关联规则 什么是关联规则? 经典例子:发现了买尿布的顾客经常也会买啤酒后,超市把两者摆在一起,从而提高了两者的销量。具体原因是:年轻的父亲下班回家的路上需要给孩子买尿布,但他们又没空去酒吧,所以就通常也给自己买一些啤酒。 关联规则基本概念 关联规则(association rule) 的主要目的是找出数据集中的频繁模式(frequent pattern),即多次重复出现的项(item)之间的“关联”(association)。 关联规则和聚类一样,都是无监督的学习。它们都不用来预测。 应用关联规则最经典的案例就是购物篮分析(basket analysis)。通过分析顾客购物篮中商品之间的关联,可以看出顾客的购物习惯。 关联规则在传统零售业的应用 购物篮分析对于传统零售商非常有用,因为他们可以通过把顾客经常同时购买的商品摆在一起,从而方便顾客选取。 这也叫做交叉销售。 关联规则在传统零售业的应用 找到关联规则后,超市可以: 把两三种商品摆在一起; 把两种商品打包销售; 把其中一种商品价格提高一点,因为顾客会不太在意那种商品的价格; 把两种商品分开放置,迫使顾客必须走过通道寻找所要购买的东西,这时谷歌可能会看到并购买其他东西。 关联规则在电商中的应用 不仅是传统零售业,在电商中同样有交叉销售,比如根据用户已经购买的商品,进行商品推荐,或者把两种商品捆绑销售。但是,关联规则主要适用于传统零售,而不是电商。 关联规则主要用于传统零售而非电商 关联规则主要适用于传统零售,而不是电商。这是因为: 电商重视长尾,哪怕某些商品的购买者人数并不多,也完全可以给购买它们的顾客推荐另一些商品。由于购买数据稀疏,关联规则难以做到为每个顾客推荐商品。 而对于传统零售,如果某件商品销量低,对它做促销、广告就得不偿失。这就是为什么要限制规则数量。 关联规则的其他应用 把文档(例如网页、推特)当做购物篮,把词汇当做item。我们可以发现哪些词汇之间共同出现的频率较高。 把病人当做购物篮,把生物标志物(例如血蛋白、基因)或疾病当做item。经常共同出现的一组生物标志物(biomarker)可以作为疾病诊断的方法。 基本原理——啤酒加尿布:经典的购物篮分析案例 超市发现:在所有购买了尿布的顾客中,有40%的人同时还买了啤酒 超市会发现很多关联规则 超市分析了很多商品之间的关联性。 尿布加啤酒是所发现的关联规则中的一个。 超市会发现很多关联规则 购物篮中的商品也叫做项(item)。 购物篮中多个项组成的集合叫做项集(itemset)。 大型超市的数据中可能有10万个项,几百万个购物篮(可以是以一笔交易即一张购物小票的形式)。 超市处理不了过多的关联规则 必须限定关联规则的数量,否则如果给超市经理提供一百万条关联规则,他们根本阅读不过来。 关联规则有效性的两个指标 判断关联规则是否有效,最常用的两个指标是: 置信度( Confidence) 支持度( Support) 为了筛选出那些具有较高置信度和支持度的规则,需要给这两个指标分别设定一个阈值。达到了阈值的规则才是有效规则。 支持度:在所有顾客中,同时购买了尿布和啤酒的人所占的比重。 如果支持度太小,说明这个规则只是偶发事件,不具有普遍性和商业价值,或者说这两件items只出现在很少的购物篮中。 置信度:在购买了尿布的顾客中,也购买了啤酒的人所占的比重。 如果置信度太低,则从X(购买尿布)就很难可靠地推断出Y(购买啤酒)来。 用于进一步筛选关联规则的指标:提升度 除了支持度和置信度以外,还有一个指标很重要。 这是因为,仅根据支持度和置信度所发现的简单关联关系可能并不实用。 用于进一步筛选关联规则的指标:提升度 规则提升度(Lift)。这个指标反映了规则的价值。提升度能说明规则对后项的预测比没有规则要好多少。 当Lift大于1时,意味着X的出现对Y的出现有促进作用;当它小于1时,表明X的出现降低了Y出现的可能性。 Lift越大越好。 用于进一步筛选关联规则的指标:提升度 提升度有助于找到那些可能是意外发现的规则,而不是本来就知道的规则。可以避免向顾客推荐热销商品。 正如啤酒加尿布的例子一样。 最常用的关联规则算法——Apriori 在各种关联规则算法中,最常用的是Apriori算法。它分两步: 生成频繁项目集。频繁项目集是支持度高于最小支持度阈值的项目的集合。 从上一步得到的频繁项目集中生成所有的可信关联规则。这里,可信关联规则是指置信度大于最小置信度阈值的规则。 关联规则的分类 分析简单关联关系的技术成为简单关联规则。 而分析序列关联关系的技术则称为序列关联规则。 序列关联关系的例子:购买了洗衣机的顾客中,一段时间内会有40%的人购买洗衣粉。 知道这种规则后,我们可以在客户购买了洗衣机后的合适时间间隔后,向其推荐洗

文档评论(0)

1亿VIP精品文档

相关文档