关联规则的相关概念.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则的相关概念

关联规则的价值衡量 客观上,使用“支持度和置信度”框架可能会产生一些不正确的规则。只凭支持度和置信度阈值未必总能找出符合实际的规则。 例:歌曲A、歌曲C为小众歌曲,歌曲B为口水歌,共有10万个用户,有200个人听过歌曲A,这200个人里面有60个听过口水歌B,有40个人听过歌曲C。听过歌曲C的人数是300,听过口水歌B的人为50000。 Confidence(A→B) = 0.3,Confidence(A→C) = 0.2 但是10W人里面有5W听过歌曲B,有一半的用户都喜欢歌曲B,但听过歌曲A的人里面只有30%的人喜欢歌曲 B 听过歌曲A的人不喜欢歌曲B 貌似A和B更相关 矛盾的规则,如何评价? 关联规则价值衡量 提升度 Lift(A?B)=Confidence(A?B)/Support(B)= 引入提升度Lift,以度量此规则是否可用。它描述的是:相对于不用规则,使用规则可以提高多少。 Lift(A→B) =Confidence(A?B)/Support(B)=0.3/0.5=0.6 Lift(A→C)= Confidence(A?C)/Support(C)=0.2/(300/100000)=66.7 歌曲A与B负相关,A与C正相关。 Lift大于1,表示使用这条规则进行推荐能提升用户听歌曲C的概率。 Lift小于1,则表示使用这条规则来进行推荐,还不如不推荐,让顾客自行选择好了。 Confidence(A→B) = 0.3 Confidence(A→C) = 0.2 Support(B)=0.5 Support(C)=300/100000 关联规则的价值衡量 主观上,一个规则的有用与否最终取决于用户的感觉,只有用户才能决定规则的有效性、可行性。所以,应该将需求和关联规则挖掘方法紧密地结合起来。例如使用“约束性关联规则挖掘算法”,将约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。 参考文献: [1]高明 . 关联规则挖掘算法的研究及其应用[D].山东师范大学. 2006 [2]李彦伟 . 基于关联规则的数据挖掘方法研究[D].江南大学. 2011 [3]肖劲橙,林子禹,毛超.关联规则在零售商业的应用[J].计算机工程.2004,30(3):189-190. [4]秦亮曦,史忠植.关联规则研究综述[J].广西大学学报.2005,30(4):310-317. [5]陈志泊,韩慧,王建新,孙俏,聂耿青.数据仓库与数据挖掘[M].北京:清华大学出版社.2009. [6]沈良忠.关联规则中Apriori 算法的C#实现研究[J].电脑知识与技术.2009,5(13):3501-3504. [7]赵卫东.商务智能(第二版)[M].北京:清华大学出版社.2011. The end Thank you~ 关联规则简介 关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出. 关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。 关联规则 “尿布与啤酒”的故事。 美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后,超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增加了销售额。 案例 70%购买了牛奶的顾客将倾向于同时购买面包。 某网上书店向用户推荐相关书籍。 案例 在买了一台PC之后下一步会购买? 案例 在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈,需要作进一步的调查; 在医疗方面,可找出可能的治疗组合; 在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等。 案例 什么是规则? 规则形如如果…那么…(If…Then…),前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。 如何来度量一个规则是否够好?有两个量,置信度(Confidence)和支持度(Support)。假设有如下表的购买记录。 关联规则基本模型 关联规则基本模型_置信度 置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档