数据挖掘FP与Apriori实验报告.docxVIP

  • 48
  • 0
  • 约2.16千字
  • 约 7页
  • 2020-03-26 发布于江西
  • 举报
数据挖掘实验 数据挖掘实验报告 ——Apriori 算法和 FP 增长算法挖掘频繁项集 问题描述: 一、 TID  数据库有 5 个事务如:表-0。设 min_sup=60%,min_conf=80%。 购买的商品 T100 {M,O,N,K,E,Y} T200 {D,O,N,K,E,Y} T300 {M,A,K,E} T400 {M,U,C,K,Y} T500 {C,O,O,K,I,E} 表-0 分别使用 Apriori 和 FP 增长算法找出所有频繁项集。并比较两种挖掘过程的效率。 列举所有与下面元规则匹配的强关联规则(给出支持度 s 和置信度 c),其中,X 是代 表顾客的变量,itemi 是表示项的变量(如“A”,“B”): ? ?? ∈ ??????????????????????,???????? (??,????????1) ∧ ????????(??,????????2)?????????(??,????????3) [??,??] 问题分析:  分别使用 Apriori 算法和 FP 算法逐步求的所有的频繁项集,记录各自使用的扫描事务 的总次数,用于探究各自的效率。 对于问题二可以采取如下步骤解决:首先找出所有三项频繁项集,然后按照元规则匹 配出关联规则,最后利用支持度和置信度选出强关联规则。 解决方案: ? 1)  1.采用 Aporior 算法挖掘所有频繁项集的步骤: 扫描数据库,对每个候选计数,得频繁一项候选集 C1 如表-1: 项集 支持度计数 {A} {C} {D} {E} {I} {K} {M} {N} {O} {U} {Y} 1 2 1 4 1 5 3 2 3 1 3 2) 数据挖掘实验 表-1 由比较候选支持度计数与最小支持度计数(min_sup*5=3)得频繁一项集 L1 如表-2: 项集 支持度计数 {E} {K} {M} {O} {Y} 4 5 3 3 3 表-2 3) 连接(L1 ? ??1 )得频繁二项候选集 C2 如表-3: 项集 支持度计数 {E,K } {E,M} {E,O } {E,Y} {K,M } {K,O} {K,Y} {M,O} {M,Y} {O,Y} 4 2 3 2 3 3 3 1 2 2 4) 表-3 扫描数据库由比较候选支持度计数与最小支持度计数得频繁二项集 L2 如表-4: 项集 支持度计数 {E,K } {E,O } {K,M } {K,O} {K,Y} 4 3 3 3 3 5) 表-4 重复步骤 3)(此处可以不用扫描数据库而是利用 Aprioir 剪枝进行选择)求的频繁三项 候选集 C3 如表-5: 项集 支持度计数 {E,K,O } {E,K,M } {E,K,Y } {K,M,O} {K,M,Y} {K,O,Y} 3 2 2 1 2 2 6) 表-5 使用 Apriori 剪枝可以去掉 C3 中的{E,K,M},{E,K,Y},{K,M,O},{K,M,Y},{K,Y,O}(因为这些项集 中存在不属于 L2 中的子集),求的 L3。 Null{}E: Null{} E: 数据挖掘实验 L3=={E,K,O} 即求的所有频繁项集 L1,L2,L3。 2.采用 FP 增长算法挖掘所有频繁项集得步骤: 1) 扫描事务数据库,收集频繁一项集 L 和对应的支持度计数并按降序排列得表-6: 项集 支持度计数 {K} {E} {M} {Y} {O} 5 4 3 3 3 2)  再次扫描事务数据库,构造 FP 树如图-1 所示: K: 5 M:1 4 M:2  Y:1 Y:1 O:1 Y:1 O:1 O:1 频繁模式信息的 FP 树 图-1 3)  通过创建条件模式基挖掘 FP 树: 项 条件模式基 条件 FP 树 频繁项集 Y {{K,E,M,Y:1},{K,E,Y:1},{K,M,Y:1 }} K:3 {K,Y} M {{K,E,M:2},{K,M:1}} K:3 {K,M} O {{K,E,M,Y:1},{K,E,Y:1},{K,E:1}} K:3,E:3 {K,O},{E,O},{K,E,O} E {K:5} {K:5} {K,E} 即求的所有频繁项集。 效率分析:在 Apriori 算法中 1)2)3)4)步中需要扫描数据库多次。而在 FP 增长算法中 只需要在 1)2)步骤中扫描数据库。因此 FP 增长算法的效率比 Apriori 算法效率高! EK OE O E K O E O ? 数据挖掘实验 由频繁三项集 L3={K,E,O}产生关联规则且匹配元规则的关联规则有: K ∧ ??? ∧ ??? ∧ ??? *注:s=3,c=1. Confidence=2/4min_conf=80% Confidence=100

文档评论(0)

1亿VIP精品文档

相关文档