第二章关联规则Associationrules.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章关联规则Associationrules

TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 大项集 支持数 B 4 C 4 E 3 项集 支持数 A 2 B 4 C 4 D 1 E 3 项集 支持数 BC 3 BE 3 CE 2 项集 支持数 BC 3 BE 3 项集 支持数 BCE 2 1、与AIS算法作比较 2、假设上例中,最小支持数为4,那利用Apriori算法的过程? 假设2阶大项集为{AB,AC,AE,BC,BE},利用Apriori算法的思想,构造3阶候选集 AB+AC?ABC AB+AE?ABE AB+BC ?ABC AB+BE ?ABE AC+AE ?ACE AC+BC ?ABC AC+BE ?ABCE AE+BC ?ABCE AE+BE ?ABE BC+BE ?BCE 3阶候选集是{ABC,ABE,ACE,BCE} 错了,3阶候选集应该是{ABC,ABE} 为什么? 问: ABCE 在不在4阶候选集中? 1、减少扫描事务量:如果某事务不包含k阶大项集,则必然不包含k+1阶大项集 ——AproriTid算法 TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 6 F 大项集 支持数 B 4 C 4 E 3 项集 支持数 A 2 B 4 C 4 D 1 E 3 F 1 项集 支持数 BC 3 BE 3 CE 2 项集 支持数 BC 3 BE 3 项集 支持数 BCE 2 TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC TID 项集 2 BCE 3 ABCE 4 BE 5 BC TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC 6 F 7 GH 8 BCG 2、减少扫描次数,采用分而治之的方法 将一个事务集分解为若干个部分,整体的大项集必然至少是某一个子集的大项集。 假如在所有子集中都是大项集的肯定是大项集 最小支持数为2,支持度为0.4 TID 项集 1 ACD 2 BCE 3 ABCE 4 BE 5 BC TID 项集 1 ACD 2 BCE 3 ABCE TID 项集 4 BE 5 BC 最小支持数为0.4*3=1.2 最小支持数为0.4*2=0.8 1阶A B C E 2阶AC BC BE CE 3阶BCE 1阶B C E 2阶 BC BE 共有的:B、C、E、BC、BE 特有的:A {2}、AC{2}、BCE{2} 都是大项集? 上例中,假如最小支持数是3,结果如何 1、减少交易集 2、减少候选项集 3、分组 扩展/最小扩展 B=A1∪A2 ∪A3,C= A1∪A2,A1 B是A1的扩展,B是C的扩展,C是A1的扩展 B是C的最小扩展,C是A1的最小扩展,但B不是A1的最小扩展 支持度 项集{A3 ∪A4,A5,A9 }的支持度? 规则 A3 ∪A4? {A5,A9}的支持度? 期望支持度 规则A3 ∪A4? {A5,A9} 是规则A3? {A5,A9}的扩展,则规则A3? {A5,A9}的期望支持度是多少? 根据期望支持度和实际支持度,判断一个规则是否有用 置信度 规则 A3 ∪A4? {A5UA6,A9}的置信度? 期望置信度 规则A3 ∪A4? {A5UA6,A9}是规则A3 ∪A4? {A5,A9}的扩展 A3 ∪A4? {A5,A9}的期望置信度 1 关联规则概述 2 关联规则有关概念 3 关联规则算法: AIS算法和Apriori 算法 1、关联规则的基本含义 2、关联规则分类 3、应用举例 关联关系:两个变量之间存在着一定的联系,比如因果关系或者时序关系。 比如: 购买面包的顾客90%也会购买牛奶; ATT股票连续上涨两天而DEC股票不跌,则IBM上涨的可能性比较大(75%); 有太阳的时候基本上是晴天 1、根据变量类型:布尔型关联规则和数值型关联规则 布尔型关联规则:变量类型都是离散的 数值型关联规则:存在变量类型是连续的 1、做地产行业的财富榜排名前10的可能性比较大 2、地产开发商容易身价在300亿以上 3、年龄小于40的难以跻身财富榜前十 2、单层关联规则和多层关联规则 根据抽象层次来判断 尿布?啤酒 优乐牌尿布?青岛啤酒 {衣服,鞋子} {外套、运动鞋} {夹克、长靴} 3、单维规则与多维规则 单维规则:涉及一个属性 多维规则:涉及多个属性 啤酒?尿布 地产开发商容易身价在300亿以上 零售业:安排商品布局,提供购买建议 已知:物品A和物品B经常出现在同一笔交易中,你会考虑怎么做? 已知物品A和物品B从没有在同一笔交易中出现,你会怎么做? 市场营销:分析顾客的购买行为和习惯 年龄大于40岁,在某工业区的投保人有近一半曾经向保险公司索赔 原因是该地区污染比较严重 识别欺诈,发现异常事件 保险公司

文档评论(0)

sunhao111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档