关联规则挖掘举例新版7.pptVIP

  • 9
  • 0
  • 约1.67千字
  • 约 16页
  • 2018-09-03 发布于湖北
  • 举报
关联规则挖掘举例新版7.ppt

bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo 关联规则挖掘举例 对于规则 A?C: 支持度 = support({A,C }) = 50% 置信度 = support({A,C })/support({A}) = 66.6% 假设最小值支持度为50%,最小置信度为50% 规则A?C满足最小支持度和最小置信度,所以它是强关联规则 * jgyj 关联规则挖掘的步骤 关联规则挖掘是一个两步的过程: 找出所有频繁项集 由频繁项集产生强关联规则,这些规则必须大于或者等于最小支持度和最小置信度 大于或者等于最小支持度的项集 * jgyj Apriori算法 Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。 Apriori算法将发现关联规则的过程分为两个步骤: 通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集; 利用频繁项集构造出满足用户最小置信度的规则。 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 * jgyj Apriori算法的重要性质 性质1:频繁项集的子集必为频繁项集 性质2:非频繁项集的超集一定是非频繁的 假设项集{A,C}是频繁项集,则{A}和{C}也为频繁项集 假设项集{D}不是频繁项集,则{A,D}和{C,D}也不是频繁项集 * jgyj Apriori算法举例 现有A、B、C、D、E五种商品的交易记录表,找出所有频繁项集,假设最小支持度=50%,最小置信度=50% * jgyj Apriori算法举例_产生频繁项集 K=1 支持度50 K=2 支持度50 支持度50 * jgyj Apriori算法举例_产生频繁项集 支持度50 支持度50 * jgyj Apriori算法举例_产生关联规则 对于频繁项集{B,C,E},它的非空子集有{B}、{C}、{E}、{B,C}、{B,E}、{C,E}。以下就是据此获得的关联规则及其置信度。 规则 置信度Confidence B?CE 66.7% C?BE 66.7% E?BC 66.7% CE?B 1 BE?C 66.7% BC?E 1 置信度≥50%(最小置信度), 都是强关联规则 * jgyj Apriori算法弊端 需要多次扫描数据表 如果频繁集最多包含10个项,那么就需要扫描交易数据表10遍,这需要很大的I/O负载 产生大量频繁集 若有100个项目,可能产生候选项数目 * jgyj FP-growth算法 Jiawei Han等人在2000年提出了一种基于FP-树的关联规则挖掘算法FP_growth,它采取“分而治之”的策略,将提供频繁项目集的数据库压缩成一棵频繁模式树(FP-树)。 仅两次扫描数据库。 理论和实验表明该算法优于Apriori算法。 * jgyj FP-growth算法 * jgyj 其他关联规则挖掘算法 约束性关联规则挖掘算法 仅设置支持度和置信度阈值,缺乏用户控制,可能产生过多的规则,实际效果可能并不好。用户关心的是某些特定的关联规则,这需要把一些约束条件引入到挖掘算法中,从而筛选出符合约束条件的有用规则,提高算法的运行效率和用户满意度。 增量式关联规则挖掘算法 数据集不断增长,有新的数据加入后,重新挖掘很费时。增量式关联规则挖掘算法是当数据库变化后,在原挖掘结果的基础上生成新的关联规则,删除过时的关联规则。 多层关联规则挖掘 …… * jgyj bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo bhj oo

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档