关联规则算法介绍及实现课件.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则算法介绍及实现课件

关联规则算法介绍 信息技术局数据分析团队 2012-3-28 关联规则算法介绍及实现 关联规则算法总体介绍 该算法的R语言实现 1.1什么关联规则算法? 1.2三个关键概念 1.3用途范围 1.1什么是关联规则挖掘 定义:关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。 典型的关联规则发现问题是对超市中的货篮数据(Market Basket)进行分析。通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。 背景: 首先被Agrawal在1993年的SIGMOD会议上提出 在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构 目的: 发现数据中的规律 超市数据中的什么产品会一起购买?— 啤酒和尿布 在买了一台PC之后下一步会购买? 支持度 如果项集X是事务T的一个子集,则称T包含X。对于一个规则X→Y的支持度是指“T中包含X∪Y的事务的百分比”。设n是T中的事务的数目。对于规则X→Y的支持度计算如下: 支持度= 置信度 对于一个规则X→Y的置信度是指“T中既包含X也包含Y的事务占所有包含X的事务的百分比”。 置信度= 最小支持度minsup。即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度。 最小置信度minconf。即用户规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。 数据集中的任意一项集Ix,如果 Support(Ix)<min-sup,则称项集Ix为非频繁项目集。 数据集中的任意一项集Ix,如果 Support(Ix)≥min-sup,则称项集Ix为频繁项目集。 例如:啤酒和尿布的关联关系 推断客户的潜在消费需求 制定产品组合销售策略 关联规则算法总体介绍 R语言实现 2.1生成标准数据集 2.2计算过程 2.3选择规则集 关联规则算法介绍及实现 购物篮格式数据集 A m、n、l、p B m、n C n、l …….. 单一格式数据集 A m A n B m …….. library(arules)  #加载arules程序包 data(Groceries)  #调用数据文件 frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))  #求频繁项集 inspect(frequentsets[1:10])    #察看求得的频繁项集 inspect(sort(frequentsets,by=support)[1:10])    #根据支持度对求得的频繁项集排序并察看 rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.01))    #求关联规则 summary(rules)    #察看求得的关联规则之摘要 x=subset(rules,subset=rhs%in%whole milklift=1.2)    #求所需要的关联规则子集 inspect(sort(x,by=support)[1:5])    #根据支持度对求得的关联规则子集排序并察看 以置信度为核心 兼顾支持度 结果集示例: lhs rhs support onfidence lift 1 {36-817aa} = {36-818aa} 00 4.344507 2 {36-818aa} = {36-817aa} 00 4.344507 3 {36-628aa} = {36-62aa} 00 6.131398 数据字段清洗规则 该分析方法的总结 1、针对多指标综合分类 2、后续需要进一步采用决策树算法进行规则提炼 和验证。 3、该类分析方法的不足有那些?如何尽量避免? 关联规则挖掘在商品组合的选择以及客户行为的分析中发挥着非常重要的作用,是一种非常简单而实用算法! 谢谢大家!

文档评论(0)

manyu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档