- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * 谢谢大家! * 基于Apriori、FP-Growth及Eclat算法的频繁模式挖掘 DMStar 小组 杨 柳 杨华峰 宋旋婷 任智红 梁志溢 贺冠文 主要内容 Apriori算法 FP-Growth算法 Eclat算法 2 3 4 频繁模式挖掘实现概述 1 算法对比评价 6 2 频繁模式挖掘实现概述 实现了Apriori、FP-Growth及Eclat三种频繁模式挖掘算法 对Mushroom、Accidents、 T10I4D100K 三个数据集做频繁模式挖掘实验,设定不同的阈值,对比不同算法挖掘频繁模式的时间 Apriori算法描述 Apriori 算法特点 1、k-1项集连接规律:若有两个k-1项集,每个项集保证有序,如果两个k-1项集的前k-2个项相同,而最后一个项不同,则证明它们是可连接的,可连接生成k项集。 2、反单调性。如果一个项集是频繁的,那么它的所有子集都是频繁的。即若一个项集的子集不是频繁项集,则该项集肯定也不是频繁项集。 Apriori算法流程 1. 扫描数据库,生成候选1项集和频繁1项集。 2. 从2项集开始循环,由频繁k-1项集生成频繁频繁k项集。 ??? ????2.1? 频繁k-1项集两两组合,判定是否可以连接,若能则连接生成k项集。 ?? ? 2.2? 对k项集中的每个项集检测其子集是否频繁,舍弃掉子集不是频繁项集即 不在频繁k-1项集中的项集。 ?? ? 2.3? 扫描数据库,计算2.3步中过滤后的k项集的支持度,舍弃掉支持度小于阈值的项集,生成频繁k项集。 3.? 若当前k项集中只有一个项集时循环结束。 Apriori主要函数说明 MapSetString, Integer genNextKItem(MapSetString, Integer preMap) 由频繁K-1项集生成频繁K项集 boolean isNeedCut(MapSetString, Integer preMap, SetString set) 由于单调性,必须保证k项集的所有k-1项子集都是频繁的,否则就该剪切该k项集 ListSetString getSubSets(SetString set) 获取k项集set的所有k-1项子集 private MapSetString, Integer assertFP( MapSetString, Integer allKItem)遍历事物数据库,求支持度,确保为频繁项集 boolean isCanLink(String[] strA1, String[] strA2) 检测两个频繁K项集是否可以连接,连接条件是只有最后一个项不同 MapString, Integer findFP1Items(ListSetString dataTrans) 生成频繁1项集 * Apriori算法挖掘结果 硬件环境:Intel Core 2 Duo CPU T5750 2GHZ, 2G内存 实验结果 F:/DataMiningSample/FPmining/Mushroom.dat threshold: 0.25 共用时:54015ms 共有5545项频繁模式 F:/DataMiningSample/FPmining/Mushroom.dat threshold: 0.2 共用时:991610ms 共有53663项频繁模式 F:/DataMiningSample/FPmining/Mushroom.dat threshold: 0.15 结论:对Mushroom.dat挖掘出来的频繁模式及支持度、频繁模式总数正 确,但是算法速度很慢,对大数据量如T10I4D100K低阈值挖掘时间太长 解决办法:改用C++写FP-Growth算法做频繁模式挖掘! Sec. 18.2 FP-Growth算法 FP-Growth算法流程 Step1 读取数据库,构造频繁1项集及FP-tree Step2 遍历FP-tree的头表,对于每个频繁项x,累积项x的所有前缀路径形成x的条件模式库CPB FP-Growth算法 Step3 对CPB上每一条路径的节点更新计数为x的计数,根据CPB构造条件FP-tree Step4 从条件FP-tree中找到所有长路径,对该路径上的节点找出所有组合方式,然后合并计数 Step5 将Step4中的频繁项集与x合并,得到包含x的频繁项集 Step2-5 循环,直到遍历头表中的所有项 FP-Growth算法 FP-Growth算法的实现 由于时间紧迫,基于芬兰教授Bart Goethals的开源代码实现
您可能关注的文档
- 2015届河北省邯郸市高三摸底考试理科数学试卷.doc
- 2015届黄石二中、鄂南高中、鄂州高中三校高三上学期期中联考政治试卷.doc
- 2015届新课标高三模拟试卷.doc
- 2015届中考物理总复习+课件+中考知识点清单:第1章++声现象(4份,pdf版)备考高效集训.pdf
- 2015经济师中级财税全真模拟题1(答案).docx
- 2015经济师中级经济基础--第二部分 财政--精编讲义.docx
- 2015考研数学1真题试卷一答案.pdf
- 2015年二级建造师考试法规及相关知识临考猜想卷与答案(五).pdf
- 2015年管理类综合能力联考真题试卷与答案详解.docx
- 2015年广东银行农信社校园招聘考试法律备考试卷与答案.doc
最近下载
- 2024年天津市高考地理一轮复习答题模板专题精讲精练6 人口类综合题 .pdf VIP
- DB64 1522.1-2024养老机构安全应急处置规程 第1部分:老年人意外.pdf VIP
- 《食品科学概论》全套教学课件.pptx
- GB51158-2015 通信线路工程设计规范.docx VIP
- 电机检修方案.doc VIP
- 一种高油脱盐乳清配料粉及其生产工艺.pdf VIP
- 日文简历履历书模板大全.pdf VIP
- 入团志愿书电子版其它工作范文实用文档-入团志愿书电子版.pdf VIP
- TZJ 3001-2017 铁路基本建设工程设计概(预)算费用定额(完整版).doc.docx VIP
- 广州市番禺区东涌中学校本教材系列.doc VIP
文档评论(0)