- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 第二次迭代,产生频繁2-项集 北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 第三次迭代,产生频繁3-项集 {I1,I2,I3} {I1,I2,I5} {I1,I3,I5} {I2,I3,I4} {I2,I3,I5} {I2,I4,I5} {I3,I4,I5} 北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 第三次迭代,产生频繁3-项集 北方工业大学信息工程学院 Apriori算法 产生频繁项集的实例 分析 先进行Apriori剪枝,再通过支持度删除 负边界:所有非频繁,但符合Apriori性质的候选项集的集合 负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的 负边界在改进算法中更为重要 北方工业大学信息工程学院 Apriori算法 从频繁项集产生关联规则 计算每一个频繁项集的子集 如{I1,I2,I5} {I1,I2}和{I5} {I1,I5}和{I2} {I2,I5}和{I1} 得到规则 {I1,I2} →I5 {I1,I5} →I2 {I2,I5} →I1 北方工业大学信息工程学院 Apriori算法 从频繁项集产生关联规则 计算规则的置信度 置信度c大于给定的阈值的规则为强关联规则 北方工业大学信息工程学院 Apriori算法 北方工业大学信息工程学院 Apriori算法 从频繁项集产生关联规则 分析 如何拆分并产生频繁项集的子集? {a,b,c,d} {a,b,c} →d {a} →{b,c,d} ? {a,b} →{c,d} ? 并不是所有被挖掘出的强关联规则都有意义 北方工业大学信息工程学院 FP-Growth算法 概述 FP-tree 频繁模式树 为了存储与频繁模式相关的关键信息而设计的一棵压缩的、扩展前缀树结构 FP-Growth算法 构成FP-tree 从FP-tree得到频繁模式 北方工业大学信息工程学院 FP-Growth算法 概述 构造FP-tree 扫描一遍数据库 统计事务中所有项的出现次数 按照出现次数的大小排序 形成一个列表 列表中保存了项目在树中出现位置的指针 扫描第二遍数据库 构建FP-tree 根结点为空 其余结点为数对(项目名:支持数) 同一项目在树中的多次出现形成一个结点链 北方工业大学信息工程学院 FP-Growth算法 概述 不产生候选项集 比Apriori大约快一个数量级 不擅长处理长模式、稀疏数据 构建FP-tree的时间和空间代价较高 在应用领域上有所限制 是最杰出的关联规则挖掘算法 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法计算过程 FP-tree的构建过程 扫描事务数据库一次,得到频繁项的集合F及其支持度,对F按支持度降序排列,生成频繁项列表L1 创建FP-tree的根结点T,以null标记,对于数据库中的每条事务,执行操作3~5 将事务中的频繁项目按L1中的次序排列,排序后的频繁项表表示为[p|P],其中p是第一个频繁项,P是剩余项目列表 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法计算过程 FP-tree的构建过程 调用insert-tree([p|P],T),即由根节点T开始,如果T有子结点N满足 N.item-name=p.item-name 则结点N的计数增1;否则创建一个新结点N,将其计数置为1,连接到其父结点T,并且通过结点链结构将其连接到具有相同item-name的结点 如果频繁项表P非空,递归地调用 insert-tree ([p|P],T) 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法计算过程 FP-Growth: 从FP-tree挖掘频繁模式 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 由支持度最小的项目I5开始 按照I5的同名结点链找到树 上所有名为I5的结点,计算每个I5 到根的路径,得到项目I5的条件 模式基:I2,I1:1,I2,I1,I3:1 I1,I4:1 合并这三个条件模式基得到I5的条件模式树I2:2,I1:2,I3:1 I1:1,I4:1 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 设最小支持度为2 则条件模式树 I2:2,I1:2,I3:1 I1:1,I4:1 这两个分支可以构成条件模式树 I2:2,I1:2 北方工业大学信息工程学院 FP-Growth算法 FP-Growth算法示例 由条件模式树,得出频繁模式 I2,I5:
您可能关注的文档
- 第四章最佳近似理论技术分析.ppt
- 第四章作用于中枢神经系统的药物技术分析.ppt
- 肺部弥漫性病变高分辨率CT教程方案.ppt
- 第四周5课时连贯衔接+练习技术分析.ppt
- 第四周第三章消费与认同技术分析.ppt
- 肺部听诊及综合病症-杨红辉教程方案.ppt
- 第四专题第18课亡人逸事技术分析.ppt
- 第五部分:网络互联及广域网技术分析.pptx
- 肺部真菌感染诊治教程方案.ppt
- 第五部分:中国古代科学与文化技术分析.ppt
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)