第五章:关联规则方法技术分析.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 第二次迭代,产生频繁2-项集 北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 第三次迭代,产生频繁3-项集 {I1,I2,I3} {I1,I2,I5} {I1,I3,I5} {I2,I3,I4} {I2,I3,I5} {I2,I4,I5} {I3,I4,I5} 北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 第三次迭代,产生频繁3-项集 北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 分析 先进行Apriori剪枝,再通过支持度删除 负边界:所有非频繁,但符合Apriori性质的候选项集的集合 负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的 负边界在改进算法中更为重要 北方工业大学信息工程学院 Apriori算法 从频繁项集产生关联规则 计算每一个频繁项集的子集 如{I1,I2,I5} {I1,I2}和{I5} {I1,I5}和{I2} {I2,I5}和{I1} 得到规则 {I1,I2} →I5 {I1,I5} →I2 {I2,I5} →I1 北方工业大学信息工程学院 Apriori算法 从频繁项集产生关联规则 计算规则的置信度 置信度c大于给定的阈值的规则为强关联规则 北方工业大学信息工程学院 Apriori算法 北方工业大学信息工程学院 Apriori算法 从频繁项集产生关联规则 分析 如何拆分并产生频繁项集的子集? {a,b,c,d} {a,b,c} →d {a} →{b,c,d} ? {a,b} →{c,d} ? 并不是所有被挖掘出的强关联规则都有意义 北方工业大学信息工程学院 FP-Growth算法 概述 FP-tree 频繁模式树 为了存储与频繁模式相关的关键信息而设计的一棵压缩的、扩展前缀树结构 FP-Growth算法 构成FP-tree 从FP-tree得到频繁模式 北方工业大学信息工程学院 FP-Growth算法 概述 构造FP-tree 扫描一遍数据库 统计事务中所有项的出现次数 按照出现次数的大小排序 形成一个列表 列表中保存了项目在树中出现位置的指针 扫描第二遍数据库 构建FP-tree 根结点为空 其余结点为数对(项目名:支持数) 同一项目在树中的多次出现形成一个结点链 北方工业大学信息工程学院 FP-Growth算法 概述 不产生候选项集 比Apriori大约快一个数量级 不擅长处理长模式、稀疏数据 构建FP-tree的时间和空间代价较高 在应用领域上有所限制 是最杰出的关联规则挖掘算法 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法计算过程 FP-tree的构建过程 扫描事务数据库一次,得到频繁项的集合F及其支持度,对F按支持度降序排列,生成频繁项列表L1 创建FP-tree的根结点T,以null标记,对于数据库中的每条事务,执行操作3~5 将事务中的频繁项目按L1中的次序排列,排序后的频繁项表表示为[p|P],其中p是第一个频繁项,P是剩余项目列表 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法计算过程 FP-tree的构建过程 调用insert-tree([p|P],T),即由根节点T开始,如果T有子结点N满足 N.item-name=p.item-name 则结点N的计数增1;否则创建一个新结点N,将其计数置为1,连接到其父结点T,并且通过结点链结构将其连接到具有相同item-name的结点 如果频繁项表P非空,递归地调用 insert-tree ([p|P],T) 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法计算过程 FP-Growth: 从FP-tree挖掘频繁模式 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 由支持度最小的项目I5开始 按照I5的同名结点链找到树 上所有名为I5的结点,计算每个I5 到根的路径,得到项目I5的条件 模式基:I2,I1:1,I2,I1,I3:1 I1,I4:1 合并这三个条件模式基得到I5的条件模式树I2:2,I1:2,I3:1 I1:1,I4:1 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 设最小支持度为2 则条件模式树 I2:2,I1:2,I3:1 I1:1,I4:1 这两个分支可以构成条件模式树 I2:2,I1:2 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 由条件模式树,得出频繁模式 I2,I5:

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档