- 11
- 0
- 约1.4万字
- 约 90页
- 2016-08-01 发布于湖北
- 举报
智能推荐2---关联分析
数据挖掘系统的典型结构 * * * 第二步、FP-growth 接着考虑I4,得到条件模式基: (I2,I1:1)、I2:1 构造条件FP-tree 得到I4频繁项集:{{I2,I4:2}} Item-name Node-head I2 Null I2:2 I1:1 * * 第二步、FP-growth 然后考虑I3,得到条件模式基: (I2,I1:2)、I2:2、 I1:2 构造条件FP-tree 由于此树不是单分支路径,因此需要递归挖掘I3 Item-name Node-head I2 I1 Null I2:4 I1:2 I1:2 * * 第二步、FP-growth 递归考虑I3,此时得到I1条件模式基(I2:2),即I1, I3的条件模式基为(I2:2) 构造条件FP-tree 得到I3的频繁项目集{{I2,I3:4},{I1,I3:4},{I2,I1,I3:2}} Item-name Node-head I2 Null I2:2 * * 第二步、FP-growth 最后考虑I1,得到条件模式基: (I2:4) 构造条件FP-tree 得到I1的频繁项目集:{{I2,I1:4} Item-name Node-head I2 Null I2:4 产生的频繁模式 项 条件模式基 条件FP树 产生的频繁模式 I5 {I2 I1:1}, {I2 I1 I3:1} I2:2,I1:2 {I2 I5:2},{I1 I5:2} {I2 I1 I5:2} I4 {I2 I1:1}, {I2:1} I2:2 {I2 I4:2} I3 {I2 I1:2}, {I2:2},{I1:2} I2:4,I1:2 I1:2 {I2 I3:4},{I1 I3:4} {I2 I1 I3:2} I1 {I2:4} I2:4 {I2 I1:4} 频繁项目集及支持度为: L2={{I1 I3:4}, {I2 I1:4} , {I1 I5:2} , {I2 I3:4}, {I2 I4:2}, {I2 I5:2}} L3={{I2 I1 I5:2}, {I2 I1 I3:2}} 与Apriori算法的结果是相同的。 FP-growth算法 FP-growth算法的主要思想 该算法主要是为了克服类Apriori算法的产生候选项集的缺点,通过采用一种新的数据结构FP-tree来达到目的。 优点:只扫描数据库二次,并且不用产生候选项集,提高了效率。 FP-growth算法 (1)数据库的第1次扫描与Apriori相同,导出频繁项(1项集)的集合和支持度计数。频繁项集L按支持度计数的递减排序。 (2)构造FP树。首先创建树根,用NULL标记。第二次扫描数据库D。每个事务中的项按照L中的次序处理。并对每个事务创建一个分枝。 一般地,当为一个事务考虑增加分枝时,沿共同前缀上的每个节点的计数加1. (3)创建一个项头表,使每项通过一个节点链指向它在树中的位置。 FP树的挖掘过程 由每个长度为1的频繁模式(初试后缀模式)开始,构造它的条件模式基(由FP树中与后缀模式一起出现的前缀路径集组成),然后,构造它的(条件)FP树,并递归地对该树进行挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。 FP-增长算法伪代码 算法:FP-增长。使用FP-树,通过模式段增长,挖掘频繁模式。 输入:事务数据库D;最小支持度阈值min_sup。 输出:频繁模式的完全集。 1. 按以下步骤构造FP-树: (a) 扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排序,结果为频繁项表L。 (b) 创建FP树的根结点,以“null”标记它。对于D中每个事务Trans,执行: 选择 Trans 中的频繁项,并按L中的次序排序。设排序后的频繁项表为[p | P],其中,p 是第一个元素,而P 是剩余元素的表。调用insert_tree([p | P], T)。该过程执行情况如下:如果T有子女N 使得N.item-name = p.item-name,则N 的计数增加1;否则创建一个新结点N,将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同item-name 的结点。如果P 非空,递归地调用insert_tree(P, N)。 2. FP-树的挖掘通过调用FP_growth(FP_tree, null)实现。该过程实现如下: procedure FP_growth(Tree, α) (1) if Tree 含单个路径P then (2) for each 路径 P 中结点的每个组合(记作β) (3) 产生模式β ∪
您可能关注的文档
- 普通话课件(完整版).ppt
- 普通话检测技术2.ppt
- 普通逻辑课件.ppt
- 普通高等教育“十一五”国家规划教材——内部控制5-6章.ppt
- 普陀中考补习班 唐G老师初三电流的磁场知识点讲解.doc
- 普陀区2016年高三物理一模试卷.docx
- 景物描写3.ppt
- 普陀区2015学年高考模拟.docx
- 景观电气工程培训.ppt
- 晶体 金属工艺学 大工.ppt
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
最近下载
- 完整版04融创物业秩序服务可视化标准.ppt
- 统编人教部编版小学语文一年级下册语文标点符号练习+答案 .pdf VIP
- EPS系统参数及整车性能的匹配.pdf VIP
- 湖北省武汉市江岸区2023-2024学年六年级上学期语文期末试卷(含答案)2.docx VIP
- 2025年中国水性粘结剂行业市场全景调研及前景战略研判报告.docx
- EPS系统对车辆操纵稳定性影响的仿真的分析研究.pdf VIP
- 幼儿园年度工作总结卫生保健.pptx
- 职业健康管理:电力行业职业健康课件.pptx VIP
- 2026.01.01施行《招标人主体责任履行指引》PPT课件.pptx VIP
- 湖北省武汉市2022-2023学年六年级上学期语文期末试卷(含答案).pdf VIP
原创力文档

文档评论(0)