大数据案例:啤酒尿布的关联算法怎么来的?.pdf

大数据案例:啤酒尿布的关联算法怎么来的?.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据案例:啤酒尿布的关联算法怎么来的? 故事背景: 在一家超市中,通过大数据分析发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商 品的销售数据曲线竟然初期的相似,于是就将尿布与啤酒摆在一起。没想到这一举措居然使尿布和 啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁 超市的真实大数据案例。原来,美国的妇女通常在家照顾孩子,所 以她们经常会嘱咐丈夫在下班回 家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。 这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的大数据中,发现啤酒和尿 布销售之间的联系呢 ?这又给了我们什么样的启示呢 ? 这就是关联 ! 关联,其实很简单,就是几个东西或者事件是经常同时出现的, “啤酒 +尿布 ”就是非常典型的两个关 联商品。所谓关联,反映的是一个事件和其他事件之间依赖或关 联的知识。当我们查找英文文献的 时候,可以发现有两个英文词都能形容关联的含义。第一个是相关性 relevance ,第二个是关联性 association ,两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上 ,比如搜索引擎算法中文档之间的关联性,我们采用 的词是 relevance; 而后者往往用在实际的事物 之上,比如电子商务网站上的商品之间的关联度我们是用 association 来表示的,而关联规则是 用associationrules 来表示的。 如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其 他属性值进行预测。简单 地来说,关联规则可以用这样的方式来表示: A→B ,其中 A 被称为前提或者左部 (LHS) ,而 B被称 为结果或者右部 (RHS) 。如果 我们要描述关于尿布和啤酒的关联规则 (买尿布的人也会买啤酒 ),那 么我们可以这样表示:买尿布 →买啤酒。 关联算法的两个概念 在关联算法中很重要的一个概念是支持度 (Support) ,也就是数据集中包含某几个特定项的概率。 比如在 1000 次的商品交易中同时出现了啤酒和尿布的次数是 50 次,那么此关联的支持度为 5% 。 和关联算法很相关的另一个概念是置信度 (Confidence) ,也就是在数据集中已经出现 A 时, B发生的 概率,置信度的计算公式是: A 与 B 同时出现的概率 /A 出现的概率。 数 据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规 律性,就称为关联。关联可分为简单关联、时序关联、因果关联等。 关联分析的目的是找出数据库 中隐藏的关联网。有时并不知道数据库中数据的关联函数,或者即使知道也是不确定的,因此关联 分析生成的规则带有置信度。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题 ,最近几年已被业界所广泛研究。 关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品 (项 ) 之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应 用于商品货架布局、货存安排以及根据购买模式对用户进行分类。 关联规则的发现过程可分为如下两步: 第一步是迭代识别所有的频繁项目集 (FrequentItemsets) ,要求频繁项目集的支持度不低于用户设 定的最低值 ; 第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则,产生关联规则。识别或发现 所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。 支 持度和置信度两个阈值是描述关联规则的两个最重要的概念。一项目组出现的频率称为支持度, 反映关联规则在数据库中的重要性。而置信度衡量关联规则的可信程度。如果某条规则

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档