基于Apriori算法和关联度指标的购物篮分析.docVIP

基于Apriori算法和关联度指标的购物篮分析.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Apriori算法和关联度指标的购物篮分析.doc

基于Apriori算法和关联度指标的购物篮分析   【摘 要】超市中不同的商品被购买的时间、数量等特征都呈现出自己独特的规律。通过对消费者群体购物记录进行分析,利用Apriori算法找出同时被购买次数较多商品,定义关联度指标,计算它们的关联度系数,挖掘出它们之间的联系。分析购物篮,对这些商品之间的联系进行整合处理,并提出合理可行的销售策略,以此来促进销量,提高收益。   【关键词】Apriori算法;数据挖掘;支持度;可信度;关联度系数   0 引言   互联网的飞速发展使得网络购物渐变为一种主流的购物方式,网店经营者关心的问题是顾客的购买习惯,各种商品之间存在的联系。   传统的购物篮分析,在计算商品组合被同时购买的次数时,会产生大量的商品组合,时间和空间的开销巨大,很难以得到令人满意的结果。为弥补这一缺陷采用Apriori算法,不断地通过k维商品集产生k+1维商品集,求出同时被购买概率大的商品组合。再分别对组合中的每一个商品求出其可信度,进一步得出该商品组合的关联度系数。根据组合的关联度系数来衡量商品之间关系的密切程度,进而把这些关联度大的商品关联在一起,以便于顾客浏览,引导消费,增加销量。   1 关联度指标的提出   数据挖掘是在没有明确假设的前提下去挖掘信息、发现各种事物之间的联系。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。   以一家电商网店为例,假设该网店有n种商品,编号分别为X1,X2,...Xn;取得该网店客户的消费记录集合D,其中有m次消费记录,购买商品组合分别为T1,T2,...Tn。为衡量商品之间关系的密切程度,挖掘它们的联系。首先定义支持度指标:   支持度:一个消费记录数据库D中包含的某商品组合的消费记录的个数与D中总的记录个数之比称为该组合的支持度S。   对CK中的任一候选组合C,如果C中存在一个不属于LK-1的维度为 的子序列,那么就从CK中删除该候选组合C。   2.2 实例应用   假设消费记录D中有四条消费记录如表,最小支持度minsupport=2/5:   3 改进关联度指标的提出及运用   Apriori算法可以求出关联度大的商品集合L,但是支持度这一指标衡量的仅仅是商品同时被购买的概率,并不能客观地反应商品之间的联系。例如铅笔和橡皮,电脑和鼠标这两组商品在一起被购买的概率很大,但是前者的支持度肯定会远远地大于后者。常见易损品的购买记录会很多,电脑等相对贵重的商品消费者一旦购买就有很长的使用周期,不会在短时间内再次购买。所以后者的支持度会很小,但是关联度却很大。   基于这一局限,进一步定义可信度及关联度系数指标减小不同商品的差异性。   (1)可信度R:商品组合的支持度与组合中的某种商品被购买概率的比值称为该商品的可信度。   例如在商品组合(X,Y)中商品X和商品Y的可信度如下:   可信度Rx,即交易记录集合D中既包含X也包含Y的记录个数与D中包含X的记录个数之比。实际上就是指,包含X商品的购物篮也包含Y商品的概率。   因为支持度小的组合中的单个商品被购买概率也会很小,可信度将不同类别商品本身之间的差异的影响因素排除在在外。只要用组合(X,Y)的支持度Sxy除以商品本身被购买的概率P(X),无论商品X的使用周期是否一样,得到的可信度都是客观,可以比较的。   商品可信度都是对给定商品组合中的单个商品而言的,每个商品都有自己的可信度。求出组合中每个商品可信度之后,就可以进一步求出这个组合的综合关联度系数。   (2)关联度系数W:当商品组合为(X1,X2…Xn)时,该组合的关联度系数为:   将关联系数定义为商品互相之间的可信度的几何平均数,并且W越大,关联度系数越高,商品之间的关系越密切,消费者更倾向于同时购买。   还是以上面的消费记录为实例,最后我们可以得出最后支持度大于2的商品组合,如表2:   表2   根据以上的表格,我们可以看出的关联度最大的商品组合是(I2,I5),其次是(I1,I3)、(I2,I3,I5),说明这些商品有很强的关联性。此外还可以看出支持度大的商品组合,可信度和关联度系数不一定高,这也印证了前面所说的可信度指标可以避免因商品自身价格、类别等属性不同而造成的支持度不客观合理的这一现象。   4 促销方案及总体评价   得出商品组合的关联度系数后,我们可以有效的掌握商品之间的关联信息。网店就可以把关联程度高、经常被同时购买的商品放在同一界面,方便顾客在购物中找到自己的商品,那样会更加的节约顾客的时间,而且也会促进商品的销售。在对商品进行广告宣传和推荐时,可以根据分析结果进行商品的选择。对那些购买频率较高、同其他商品关联规则较多的商品进行宣传推荐,其效果将事半功倍。   A

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档