关联分析及案例应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联分析及案例应用

关联分析及案例应用 - [数据挖掘] 2010-07-28 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明 /logshtml ? ?准备分3个部分来介绍: 第一部分? 关联分析(association)简介及模型实现关键点 第二部分? 关联分析在clementine中的具体案例实现 第三部分? 时序分析在clementine中的具体案例实现 今天先谈谈第一部分 ? 1、? ? cross-selling。 ? 分析:买了a(和b)的人还买了c? ?即特征1和特征2 发生,特征3伴随发生 时序分析???? 买了a的人,然后再买了b,最后又买了c ? 二者区别:关联分析,一次购物,买了什么会买什么。 时序分析,这次购物,下次会买什么。(零售、流程改进、网络日志分析) ? 2、? clementin中的数据格式:apriori 可以接受2中排列方式,但只接受名义字段,且字段在方向设定时必须为both。GRI和CARMA只能接受第一种排列方式 ? 3、关于阀值的设定: ? 支持度和置信度,定多少才合适?没有最合适,当然是这两个值越高出来的规则越有说服力,但这样的规则往往很难得到。所以我个人认为只要符合业务需求且合理,都可以进行部署。建议将支持度和置信度从低往高不断调整,查看规则的变化情况。 ? 举个简单的例子,某条规则置信度为90%,规提升水平为2,而支持度只有1%,原始数据量有1000万。请问,这条规则是否有意义?我们可以看到这条规则的规模有10万,且有较高的置信水平,所以它的实际部署能力还是比较强的。 ? 4、再说说提升水平lift这个参数。 假定设定规则的最小阀值为支持度30%,置信度为60%,然后你得到了很多的强关联规则。比如有这么一条,总数据10000个,A商品6000个,B商品7500个,然后同时购买A和B的4000个。我们发现A-B(即购买了a的同时购买b)这条规则也是一条强关联规则。支持度为=4000/1000o=40%,置信度=4000/6000=66.7%. 但是我们发现原总数据集中,购买b产品的比例有75%,要大于66.%,即购买a产品会对购买b产品产生反向作用,即负相关。所以才有了lift这样一个参数,来弥补支持度和置信度在解释规则方面的不足: ? Lift=? P(AUB)? /? P(A)P(B)?? ? 当lift=1时,A、B互相独立 当lift1时,A、B负相关 当Lift1时,A、B正相关? 即A/B中一个的出现,都提升了另外一个出现的可能性。 关联分析在clementine中的具体案例实现 - [数据挖掘] 2010-08-09 版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明 /logshtml ? 第一部分? 关联分析(association)简介及模型实现关键点 今天来谈谈 第二部分? 关联分析在clementine中的具体案例实现 基础数据准备:在clementine中,进行关联分析,为了能够尝试各种算法,这里我采用第一种模型输入数据,建模前需先将数据整理成如下格式 2个字段:客户编号和产品编号(一个客户编号可能有多条产品记录) 步骤如下: 1、原始数据格式 2、然后将产品字段转换成名义字段即 集字段,clementine里面一个字段选项按钮,导出按钮,其作用是基于现有字段生成新字段 3、根据集字段生成新的产品字段,作用就是生成将数据转换成关联分析要求的数据格式 生成的格式如下:每一行数据表示没一个用户购买了哪些产品,1表示购买,0表示没有 5、字段输入方向选择为both: 6、整个建模过程如下:这里我选择的是GRI算法,有兴趣的同学可以试试Apriori和Carma ? 7、算法设置及结果 在数据格式转换时忘记处理数据原来的小数格式,所以导致每个商品名后面都有小尾巴,确实不怎么美观。

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档