- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联分析及案例应用
关联分析及案例应用 - [数据挖掘]
2010-07-28
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明/logshtml
?
?准备分3个部分来介绍:
第一部分? 关联分析(association)简介及模型实现关键点
第二部分? 关联分析在clementine中的具体案例实现
第三部分? 时序分析在clementine中的具体案例实现
今天先谈谈第一部分
?
1、? ?
cross-selling。
?
分析:买了a(和b)的人还买了c? ?即特征1和特征2 发生,特征3伴随发生
时序分析???? 买了a的人,然后再买了b,最后又买了c
?
二者区别:关联分析,一次购物,买了什么会买什么。
时序分析,这次购物,下次会买什么。(零售、流程改进、网络日志分析)
?
2、? clementin中的数据格式:apriori 可以接受2中排列方式,但只接受名义字段,且字段在方向设定时必须为both。GRI和CARMA只能接受第一种排列方式
?
3、关于阀值的设定:
?
支持度和置信度,定多少才合适?没有最合适,当然是这两个值越高出来的规则越有说服力,但这样的规则往往很难得到。所以我个人认为只要符合业务需求且合理,都可以进行部署。建议将支持度和置信度从低往高不断调整,查看规则的变化情况。
?
举个简单的例子,某条规则置信度为90%,规提升水平为2,而支持度只有1%,原始数据量有1000万。请问,这条规则是否有意义?我们可以看到这条规则的规模有10万,且有较高的置信水平,所以它的实际部署能力还是比较强的。
?
4、再说说提升水平lift这个参数。
假定设定规则的最小阀值为支持度30%,置信度为60%,然后你得到了很多的强关联规则。比如有这么一条,总数据10000个,A商品6000个,B商品7500个,然后同时购买A和B的4000个。我们发现A-B(即购买了a的同时购买b)这条规则也是一条强关联规则。支持度为=4000/1000o=40%,置信度=4000/6000=66.7%.
但是我们发现原总数据集中,购买b产品的比例有75%,要大于66.%,即购买a产品会对购买b产品产生反向作用,即负相关。所以才有了lift这样一个参数,来弥补支持度和置信度在解释规则方面的不足:
?
Lift=? P(AUB)? /? P(A)P(B)??
?
当lift=1时,A、B互相独立
当lift1时,A、B负相关
当Lift1时,A、B正相关? 即A/B中一个的出现,都提升了另外一个出现的可能性。
关联分析在clementine中的具体案例实现 - [数据挖掘]
2010-08-09
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明/logshtml
? 第一部分? 关联分析(association)简介及模型实现关键点
今天来谈谈 第二部分? 关联分析在clementine中的具体案例实现
基础数据准备:在clementine中,进行关联分析,为了能够尝试各种算法,这里我采用第一种模型输入数据,建模前需先将数据整理成如下格式
2个字段:客户编号和产品编号(一个客户编号可能有多条产品记录)
步骤如下:
1、原始数据格式
2、然后将产品字段转换成名义字段即 集字段,clementine里面一个字段选项按钮,导出按钮,其作用是基于现有字段生成新字段
3、根据集字段生成新的产品字段,作用就是生成将数据转换成关联分析要求的数据格式
生成的格式如下:每一行数据表示没一个用户购买了哪些产品,1表示购买,0表示没有
5、字段输入方向选择为both:
6、整个建模过程如下:这里我选择的是GRI算法,有兴趣的同学可以试试Apriori和Carma
?
7、算法设置及结果
在数据格式转换时忘记处理数据原来的小数格式,所以导致每个商品名后面都有小尾巴,确实不怎么美观。
您可能关注的文档
最近下载
- 垫付协议书范文.docx VIP
- 四年级上第2单元第5课《了解家乡美丽的风景——数据收集工具》课件(内嵌视频+音频).pptx VIP
- 高思学校竞赛数学导引·三年级(详解升级版).pdf VIP
- 中药新药制备工艺研究的思路与方法.docx VIP
- 我国人工智能的发展历程.pptx VIP
- 乳腺癌重建术的护理.pptx
- 小学五年级民间故事10篇.pdf VIP
- 原嘉兴高联丝绸印染有限公司疑似污染地块土壤污染状况初步调查报告.pdf VIP
- 新解读《GB_T 39107-2020消费品中可挥发性有机物含量的测定 静态顶空进样法》.docx VIP
- 腰椎间盘突出症的中医护理PPT模板.pptx VIP
文档评论(0)