基于Apriori算法的分类挖掘..ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关 联 内容概要 关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。 关联分析的结果常有两种: 关联规则和序列模式。 关联规则用于寻找在同一个事件中出现的不同项的相关性; 序列模式与此类似,但它寻找的是事件之间时间上的相关性。 关 联 规 则 关联规则发现的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)组成。 定义3.2:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。 以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律——“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服” 等等。这些规律即关联规则。 定义3.3:关联规则挖掘的交易数据集记为D(一般为交易数据库),D={T1,T2,…,Tk,…,Tn},Tk(k=1,2,…,n)称为交易,对应每一个交易有唯一的标识,记作TID。 元素im(m=1,2,…,p)称为项。设I={i1,i2,…,im}是D中全体项组成的集合,且Tk?I。 找出频繁项集--Apriori算法 Apriori 性质 Apriori 算法基本思想 找出频繁项集--Apriori算法 同层关联规则即处于同概念层的关联规则,其挖掘是在特定概念层上逐层展开的,需对项的每个层次进行处理,一般采用自顶向下 策略。对每一层,可以使用类似于单层关联规则挖掘的发现频繁项集的任何算法; 算法有ML-T2、ML-SH、ML-TMAX、 ML-T2+等 层间关联规则跨越层边界,规则中的项不要求属于同一概念层。 算法有:ML-CH等。 单维关联规则 (维内关联规则) 维间关联规则 (多维关联规则) 混合维关联规则 (某些谓词重复出现) 例:假定数据包含频繁集l= {I1,I2,I5},L的非空子集有{I1,I2}, {I1,I5}, {I2,I5}, {I1}, {I2}, 和{I5}。可以由l产生的关联规则: I1?I2?I5, confidence = 2/4 = 50%; I1?I5?I2, confidence = 2/2 = 100%; I2?I5?I1, confidence = 2/2 = 100%; I1?I2?I5, confidence = 2/6 = 33%; I2?I1?I5, confidence = 2/7 = 29%; I5?I1?I2, confidence = 2/2 = 100%; 若最小置信度阈值为70%,则只有I1?I5?I2, I2?I5?I1,I5?I1?I2可输出,是强关联规则 不需要生成大量候选项集的频繁项集挖掘。 算法采用分而治之的策略。 频繁模式增长(FP-Growth)算法 例:最小支持度阈值 为3 交易编号 所有购物项 (排序后的)频繁项 100 f,a,c,d,g,i,m,p f,c,a,m,p 200 a,b,c,f,l,m,o f,c,a,b,m 300 b,f,h,j,o f,b 400 b,c,k,s,p c,b,p 500 a,f,c,e,l,p,m,n f,c,a,m,p FP-Growth算法例 null{} b:1 f:3 c:1 b:1 p:1 f:1 c:1 m:1 p:1 a:1 a:2 b:1 m:1 f:2 c:2 a:3 f:4 c:3 m:2 p:2 1.f,c,a,m,p 2.f,c,a,b,m 3.f,b 4.c,b,p 5.f,c,a,m,p FP-Growth算法例 生成的FP树 FP-Growth算法例 节点链性质对任意频繁项ai,顺着ai的节点链,从ai的头开始,可以找到包含ai的所有频繁模式。 项 条件模式库 条件FP树 p {(f:2,c:2,a:2,m:2),(c:1,b:1)} {(c:3)}| p m {(f:4,c:3,a:3,m:2),(f:4,c:3,a:3,b:1,m:1)} {(f:3,c:3,a:3)}| m b {(f:4,c:3,a:3,b:1),(f:4,b:1),(c:1,b:1)} φ a {(f:3,c:3)} {(f:3,c:3)}| a c {(f:3)} {(f:3)}| c f φ φ 包含m的所有频繁模式的集合有:{(m:3),(am:3),(cm:3),(fm:3),(cam:3),(fam:3

文档评论(0)

sa74g0hj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档