- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用基础-关联规则
关联规则什么是关联规则?经典例子:发现了买尿布的顾客经常也会买啤酒后,超市把两者摆在一起,从而提高了两者的销量。具体原因是:年轻的父亲下班回家的路上需要给孩子买尿布,但他们又没空去酒吧,所以就通常也给自己买一些啤酒。关联规则基本概念关联规则(association rule) 的主要目的是找出数据集中的频繁模式(frequent pattern),即多次重复出现的项(item)之间的“关联”(association)。关联规则和聚类一样,都是无监督的学习。它们都不用来预测。应用关联规则最经典的案例就是购物篮分析(basket analysis)。通过分析顾客购物篮中商品之间的关联,可以看出顾客的购物习惯关联规则在传统零售业的应用购物篮分析对于传统零售商非常有用,因为他们可以通过把顾客经常同时购买的商品摆在一起,从而方便顾客选取。这也叫做交叉销售。关联规则在传统零售业的应用找到关联规则后,超市可以:把两三种商品摆在一起;把两种商品打包销售;把其中一种商品价格提高一点,因为顾客会不太在意那种商品的价格;把两种商品分开放置,迫使顾客必须走过通道寻找所要购买的东西,这时谷歌可能会看到并购买其他东西。关联规则在电商中的应用不仅是传统零售业,在电商中同样有交叉销售,比如根据用户已经购买的商品,进行商品推荐,或者把两种商品捆绑销售。但是,关联规则主要适用于传统零售,而不是电商。关联规则主要用于传统零售而非电商关联规则主要适用于传统零售,而不是电商。这是因为:电商重视长尾,哪怕某些商品的购买者人数并不多,也完全可以给购买它们的顾客推荐另一些商品。由于购买数据稀疏,关联规则难以做到为每个顾客推荐商品。而对于传统零售,如果某件商品销量低,对它做促销、广告就得不偿失。这就是为什么要限制规则数量。关联规则的其他应用把文档(例如网页、推特)当做购物篮,把词汇当做item。我们可以发现哪些词汇之间共同出现的频率较高。把病人当做购物篮,把生物标志物(例如血蛋白、基因)或疾病当做item。经常共同出现的一组生物标志物(biomarker)可以作为疾病诊断的方法。基本原理——啤酒加尿布:经典的购物篮分析案例超市发现:在所有购买了尿布的顾客中,有40%的人同时还买了啤酒超市会发现很多关联规则超市分析了很多商品之间的关联性。尿布加啤酒是所发现的关联规则中的一个。超市会发现很多关联规则购物篮中的商品也叫做项(item)。购物篮中多个项组成的集合叫做项集(itemset)。大型超市的数据中可能有10万个项,几百万个购物篮(可以是以一笔交易即一张购物小票的形式)。超市处理不了过多的关联规则必须限定关联规则的数量,否则如果给超市经理提供一百万条关联规则,他们根本阅读不过来。关联规则有效性的两个指标判断关联规则是否有效,最常用的两个指标是:置信度( Confidence)支持度( Support)为了筛选出那些具有较高置信度和支持度的规则,需要给这两个指标分别设定一个阈值。达到了阈值的规则才是有效规则。支持度:在所有顾客中,同时购买了尿布和啤酒的人所占的比重。如果支持度太小,说明这个规则只是偶发事件,不具有普遍性和商业价值,或者说这两件items只出现在很少的购物篮中。置信度:在购买了尿布的顾客中,也购买了啤酒的人所占的比重。如果置信度太低,则从X(购买尿布)就很难可靠地推断出Y(购买啤酒)来。用于进一步筛选关联规则的指标:提升度除了支持度和置信度以外,还有一个指标很重要。这是因为,仅根据支持度和置信度所发现的简单关联关系可能并不实用。用于进一步筛选关联规则的指标:提升度规则提升度(Lift)。这个指标反映了规则的价值。提升度能说明规则对后项的预测比没有规则要好多少。当Lift大于1时,意味着X的出现对Y的出现有促进作用;当它小于1时,表明X的出现降低了Y出现的可能性。Lift越大越好。用于进一步筛选关联规则的指标:提升度提升度有助于找到那些可能是意外发现的规则,而不是本来就知道的规则。可以避免向顾客推荐热销商品。正如啤酒加尿布的例子一样。最常用的关联规则算法——Apriori在各种关联规则算法中,最常用的是Apriori算法。它分两步:生成频繁项目集。频繁项目集是支持度高于最小支持度阈值的项目的集合。从上一步得到的频繁项目集中生成所有的可信关联规则。这里,可信关联规则是指置信度大于最小置信度阈值的规则。关联规则的分类分析简单关联关系的技术成为简单关联规则。而分析序列关联关系的技术则称为序列关联规则。序列关联关系的例子:购买了洗衣机的顾客中,一段时间内会有40%的人购买洗衣粉。知道这种规则后,我们可以在客户购买了洗衣机后的合适时间间隔后,向其推荐洗衣粉。序列关联规则的最常见算法是Sequence算法。它具有两个步骤,并且这两个步骤和Apriori算法几乎完全相同。规则可以有
文档评论(0)