智能推荐2关联分析研讨.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
智能推荐2关联分析研讨

数据挖掘系统的典型结构 * * * 第二步、FP-growth 接着考虑I4,得到条件模式基: (I2,I1:1)、I2:1 构造条件FP-tree 得到I4频繁项集:{{I2,I4:2}} Item-name Node-head I2 Null I2:2 I1:1 * * 第二步、FP-growth 然后考虑I3,得到条件模式基: (I2,I1:2)、I2:2、 I1:2 构造条件FP-tree 由于此树不是单分支路径,因此需要递归挖掘I3 Item-name Node-head I2 I1 Null I2:4 I1:2 I1:2 * * 第二步、FP-growth 递归考虑I3,此时得到I1条件模式基(I2:2),即I1, I3的条件模式基为(I2:2) 构造条件FP-tree 得到I3的频繁项目集{{I2,I3:4},{I1,I3:4},{I2,I1,I3:2}} Item-name Node-head I2 Null I2:2 * * 第二步、FP-growth 最后考虑I1,得到条件模式基: (I2:4) 构造条件FP-tree 得到I1的频繁项目集:{{I2,I1:4} Item-name Node-head I2 Null I2:4 产生的频繁模式 项 条件模式基 条件FP树 产生的频繁模式 I5 {I2 I1:1}, {I2 I1 I3:1} I2:2,I1:2 {I2 I5:2},{I1 I5:2} {I2 I1 I5:2} I4 {I2 I1:1}, {I2:1} I2:2 {I2 I4:2} I3 {I2 I1:2}, {I2:2},{I1:2} I2:4,I1:2 I1:2 {I2 I3:4},{I1 I3:4} {I2 I1 I3:2} I1 {I2:4} I2:4 {I2 I1:4} 频繁项目集及支持度为: L2={{I1 I3:4}, {I2 I1:4} , {I1 I5:2} , {I2 I3:4}, {I2 I4:2}, {I2 I5:2}} L3={{I2 I1 I5:2}, {I2 I1 I3:2}} 与Apriori算法的结果是相同的。 FP-growth算法 FP-growth算法的主要思想 该算法主要是为了克服类Apriori算法的产生候选项集的缺点,通过采用一种新的数据结构FP-tree来达到目的。 优点:只扫描数据库二次,并且不用产生候选项集,提高了效率。 FP-growth算法 (1)数据库的第1次扫描与Apriori相同,导出频繁项(1项集)的集合和支持度计数。频繁项集L按支持度计数的递减排序。 (2)构造FP树。首先创建树根,用NULL标记。第二次扫描数据库D。每个事务中的项按照L中的次序处理。并对每个事务创建一个分枝。 一般地,当为一个事务考虑增加分枝时,沿共同前缀上的每个节点的计数加1. (3)创建一个项头表,使每项通过一个节点链指向它在树中的位置。 FP树的挖掘过程 由每个长度为1的频繁模式(初试后缀模式)开始,构造它的条件模式基(由FP树中与后缀模式一起出现的前缀路径集组成),然后,构造它的(条件)FP树,并递归地对该树进行挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。 FP-增长算法伪代码 算法:FP-增长。使用FP-树,通过模式段增长,挖掘频繁模式。 输入:事务数据库D;最小支持度阈值min_sup。 输出:频繁模式的完全集。 1. 按以下步骤构造FP-树: (a) 扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排序,结果为频繁项表L。 (b) 创建FP树的根结点,以“null”标记它。对于D中每个事务Trans,执行: 选择 Trans 中的频繁项,并按L中的次序排序。设排序后的频繁项表为[p | P],其中,p 是第一个元素,而P 是剩余元素的表。调用insert_tree([p | P], T)。该过程执行情况如下:如果T有子女N 使得N.item-name = p.item-name,则N 的计数增加1;否则创建一个新结点N,将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同item-name 的结点。如果P 非空,递归地调用insert_tree(P, N)。 2. FP-树的挖掘通过调用FP_growth(FP_tree, null)实现。该过程实现如下: procedure FP_growth(Tree, α) (1) if Tree 含单个路径P then (2) for each 路径 P 中结点的每个组合(记作β) (3) 产生模式β ∪

文档评论(0)

cc880559 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档