- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则的价值衡量 客观上,使用“支持度和置信度”框架可能会产生一些不正确的规则。只凭支持度和置信度阈值未必总能找出符合实际的规则。 例:歌曲A、歌曲C为小众歌曲,歌曲B为口水歌,共有10万个用户,有200个人听过歌曲A,这200个人里面有60个听过口水歌B,有40个人听过歌曲C。听过歌曲C的人数是300,听过口水歌B的人为50000。 Confidence(A→B) = 0.3,Confidence(A→C) = 0.2 但是10W人里面有5W听过歌曲B,有一半的用户都喜欢歌曲B,但听过歌曲A的人里面只有30%的人喜欢歌曲 B 听过歌曲A的人不喜欢歌曲B 貌似A和B更相关 矛盾的规则,如何评价? 关联规则价值衡量 提升度 Lift(A?B)=Confidence(A?B)/Support(B)= 引入提升度Lift,以度量此规则是否可用。它描述的是:相对于不用规则,使用规则可以提高多少。 Lift(A→B) =Confidence(A?B)/Support(B)=0.3/0.5=0.6 Lift(A→C)= Confidence(A?C)/Support(C)=0.2/(300/100000)=66.7 歌曲A与B负相关,A与C正相关。 Lift大于1,表示使用这条规则进行推荐能提升用户听歌曲C的概率。 Lift小于1,则表示使用这条规则来进行推荐,还不如不推荐,让顾客自行选择好了。 Confidence(A→B) = 0.3 Confidence(A→C) = 0.2 Support(B)=0.5 Support(C)=300/100000 关联规则的价值衡量 主观上,一个规则的有用与否最终取决于用户的感觉,只有用户才能决定规则的有效性、可行性。所以,应该将需求和关联规则挖掘方法紧密地结合起来。例如使用“约束性关联规则挖掘算法”,将约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。 参考文献: [1]高明 . 关联规则挖掘算法的研究及其应用[D].山东师范大学. 2006 [2]李彦伟 . 基于关联规则的数据挖掘方法研究[D].江南大学. 2011 [3]肖劲橙,林子禹,毛超.关联规则在零售商业的应用[J].计算机工程.2004,30(3):189-190. [4]秦亮曦,史忠植.关联规则研究综述[J].广西大学学报.2005,30(4):310-317. [5]陈志泊,韩慧,王建新,孙俏,聂耿青.数据仓库与数据挖掘[M].北京:清华大学出版社.2009. [6]沈良忠.关联规则中Apriori 算法的C#实现研究[J].电脑知识与技术.2009,5(13):3501-3504. [7]赵卫东.商务智能(第二版)[M].北京:清华大学出版社.2011. The end Thank you~ 大数据时代算法-关联规则简介 关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。首先被Agrawal, Imielinski and Swami在1993年的SIGMOD会议上提出. 关联规则挖掘是数据挖掘中最活跃的研究方法之一。典型的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。 关联规则 “尿布与啤酒”的故事。 美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%~40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后,超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增加了销售额。 案例 70%购买了牛奶的顾客将倾向于同时购买面包。 某网上书店向用户推荐相关书籍。 案例 在买了一台PC之后下一步会购买? 案例 在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈,需要作进一步的调查; 在医疗方面,可找出可能的治疗组合; 在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等。 案例 什么是规则? 规则形如如果…那么…(If…Then…),前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。 如何来度量一个规则是否够好?有两个量,置信度(Confidence)和支持度(Support)。假设有如下表的购买记录。 关联规则基本模型 关联规则基本模型_置信度 置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,
您可能关注的文档
- 数字卫星接收机安装与调试图解要点解析.ppt
- 手机图书馆要点解析.ppt
- 数字温度传感器DS18B20应用实例要点解析.ppt
- 数字温度计要点解析.ppt
- 万科全面居家解决方案收纳篇要点解析.ppt
- 手机网站、app要点解析.ppt
- 数字系统EDA技术_4_1要点解析.ppt
- 万科日本售楼处设计要点解析.ppt
- 数字系统第五部分要点解析.ppt
- 万科上海世茂湖滨与世茂滨江花园物业管理调研要点解析.ppt
- 第二单元 混合运算 专项--括号的同级混合运算 提升练(含答案)小学数学人教版(2024)三年级上册.doc
- 第二单元 专题--有括号的同级混合运算 强化练(含答案)小学数学人教版(2024)三年级上册.doc
- 第二单元 混合运算 单元检测试题(含答案)小学数学人教版(2024)三年级上册.doc
- 第三单元 观察物体 同步练习 (含答案)苏教版数学四年级上册.doc
- 人教版一年级上册数学第一单元1.4《分与合》课时练(含答案).doc
- 人教版一年级上册数学第一单元1.7《0的认识和加、减法》课时练(含答案).doc
- 苏教版一年级数学上册期末易错易混提分卷(含答案).doc
- 北师大版数学四年级上册 第三章乘法单元测试A卷(含解析).doc
- 西师大版小学数学六年级(上)第一周闯关测试题(含解析).doc
- 2025-2026学年湖南省名校教育联盟2024-2025学年高三上学期12月联考政治试卷含详解.doc
最近下载
- OnyxWorks培训设置与使用程序.ppt VIP
- DB13JT8530-2023 装配式农村住房技术标准.pdf VIP
- 2021年中央民族工作会议大会讲话全文(42页).docx VIP
- 《人工智能基础》 第6章 办公智能:AI提升工作效率.pptx
- ncv65产品应用培训金额和单价精度设置.pptx VIP
- 文书工作与档案管理教学课件作者第三版赵映诚1第一章(2805KB)..pptx VIP
- 乐学英语口语教程(第二版)Unit 8 PPT课件.pptx VIP
- 新质生产力优质文档课件.pptx VIP
- 成人住院患者跌倒风险评估及预防护理团标解读PPT课件.pptx VIP
- 大学生消防安全知识宣传j教育.ppt VIP
文档评论(0)