智能推荐2关联分析研讨.ppt

下载文档 降价啦

4
0
约1.4万字
约 90页
2017-05-07 发布于湖北
举报
版权申诉
保障服务

智能推荐2关联分析研讨.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

智能推荐2关联分析研讨

数据挖掘系统的典型结构 * * * 第二步、FP-growth 接着考虑I4，得到条件模式基： (I2,I1:1)、I2:1 构造条件FP-tree 得到I4频繁项集：{{I2,I4:2}} Item-name Node-head I2 Null I2:2 I1:1 * * 第二步、FP-growth 然后考虑I3，得到条件模式基： (I2,I1:2)、I2:2、 I1:2 构造条件FP-tree 由于此树不是单分支路径，因此需要递归挖掘I3 Item-name Node-head I2 I1 Null I2:4 I1:2 I1:2 * * 第二步、FP-growth 递归考虑I3，此时得到I1条件模式基(I2:2),即I1, I3的条件模式基为(I2:2) 构造条件FP-tree 得到I3的频繁项目集{{I2,I3:4},{I1,I3:4},{I2,I1,I3:2}} Item-name Node-head I2 Null I2:2 * * 第二步、FP-growth 最后考虑I1，得到条件模式基： (I2:4) 构造条件FP-tree 得到I1的频繁项目集：{{I2,I1:4} Item-name Node-head I2 Null I2:4 产生的频繁模式项条件模式基条件FP树产生的频繁模式 I5 {I2 I1:1}, {I2 I1 I3:1} I2:2，I1:2 {I2 I5:2},{I1 I5:2} {I2 I1 I5:2} I4 {I2 I1:1}, {I2:1} I2:2 {I2 I4:2} I3 {I2 I1:2}, {I2:2},{I1:2} I2:4,I1:2 I1:2 {I2 I3:4},{I1 I3:4} {I2 I1 I3:2} I1 {I2:4} I2:4 {I2 I1:4} 频繁项目集及支持度为: L2={{I1 I3:4}, {I2 I1:4} , {I1 I5:2} , {I2 I3:4}, {I2 I4:2}, {I2 I5:2}} L3={{I2 I1 I5:2}, {I2 I1 I3:2}} 与Apriori算法的结果是相同的。 FP-growth算法 FP-growth算法的主要思想该算法主要是为了克服类Apriori算法的产生候选项集的缺点，通过采用一种新的数据结构FP-tree来达到目的。优点：只扫描数据库二次，并且不用产生候选项集，提高了效率。 FP-growth算法（1）数据库的第1次扫描与Apriori相同，导出频繁项（1项集）的集合和支持度计数。频繁项集L按支持度计数的递减排序。（2）构造FP树。首先创建树根，用NULL标记。第二次扫描数据库D。每个事务中的项按照L中的次序处理。并对每个事务创建一个分枝。一般地，当为一个事务考虑增加分枝时，沿共同前缀上的每个节点的计数加1. （3）创建一个项头表，使每项通过一个节点链指向它在树中的位置。 FP树的挖掘过程由每个长度为1的频繁模式（初试后缀模式）开始，构造它的条件模式基（由FP树中与后缀模式一起出现的前缀路径集组成），然后，构造它的（条件）FP树，并递归地对该树进行挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。 FP-增长算法伪代码算法：FP-增长。使用FP-树，通过模式段增长，挖掘频繁模式。输入：事务数据库D；最小支持度阈值min_sup。输出：频繁模式的完全集。 1．按以下步骤构造FP-树： (a) 扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排序，结果为频繁项表L。 (b) 创建FP树的根结点，以“null”标记它。对于D中每个事务Trans，执行：选择 Trans 中的频繁项，并按L中的次序排序。设排序后的频繁项表为[p | P]，其中，p 是第一个元素，而P 是剩余元素的表。调用insert_tree([p | P], T)。该过程执行情况如下:如果T有子女N 使得N.item-name = p.item-name，则N 的计数增加1；否则创建一个新结点N，将其计数设置为1，链接到它的父结点T，并且通过结点链结构将其链接到具有相同item-name 的结点。如果P 非空，递归地调用insert_tree(P, N)。 2． FP-树的挖掘通过调用FP_growth(FP_tree, null)实现。该过程实现如下： procedure FP_growth(Tree, α) (1) if Tree 含单个路径P then (2) for each 路径 P 中结点的每个组合（记作β） (3) 产生模式β ∪