- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
找到的所有频繁项集 {I1,I2};{I1,I3};{I1,I5};{I2,I3};{I2,I4};{I2,I5}; {I1,I2,I3};{I1,I2,I5}。 从频繁集生成强关联规则(满足min_sup和min_conf): 对于每个频繁项集l ,产生所有非空子集s 对于l的每个非空子集,如果 count(l)/count(s)≥min_conf, 则输出规则 s?(l-s) 如:l={I1,I2,I5}, 非空子集:{I1}, {I2}, {I5}, {I1,I2}, {I1,I5}, {I2,I5} s={I1,I2}, l-s={I5}; count(l)/count(s)=2/4 s={I1,I5}, l-s={I2}; count(l)/count(s)=2/2 s={I2,I5}, l-s={I1}; count(l)/count(s)=2/2 s={I1}, l-s={I2,I5}; count(l)/count(s)=2/6 s={I2}, l-s={I1,I5}; count(l)/count(s)=2/7 s={I5}, l-s={I1,I2}; count(l)/count(s)=2/2 然后得到如下的规则: 如果min_conf=70%, 则可得到并输出下列的结果(强关联规则): 关联规则挖掘算法主要考虑的问题有以下两个: (1)减少I/O操作。关联规则挖掘的数据集有时可达GB甚至TB数量级,频繁的I/O操作必将影响关联规则的挖掘效率,减少I/O操作的方法主要是减少扫描数据集D的次数。 (2)降低需要计算支持度的项目集(常称为候选项集)的数量,使其与频繁项目集的数量接近。候选项目数量的降低可以节省为处理部分候选项目集所需的计算时间和存储空间。 Aprior算法最直观,最易理解,但 ①需要产生大量的候选项集,工作量很大。 ②需要重复地扫描数据库,通过模式匹配检查一个很大的候选集合(长模式时尤其如此)。 3.2 FP_tree growth algorithm不产生候选项集的频繁项集挖掘方法 能提供频繁项集的数据库压缩到频繁模式树(Frequent Pattern Tree)上,分成一组条件数据库,再由这些条件数据库生成频繁项集。 How does FP_tree growth algorithm to find frequent itemsets? FP-tree growth Algorithm Input:A transaction database D, min-sup Output: the complete set of frequent patterns Method: Step1.第一次扫描数据库,计数并导出L1的集合,最后使得L1中的每件事务中的项按count的降序排列,记为L Item set Support I2 7 I1 6 I3 6 I4 2 I5 2 上例的事务数据库得到的L Step2. 构造FP-tree.( 包括Item ID, Support count Node link) Step2.1 创建根节点,记为null Step2.2 第二次扫描数据库, 对每一个事务中的项按L中的次序重新排列处理 (如右表) 然后对每个事务创建一个分枝(一棵子树): 1)分枝的节点数=事务中的项数 2)按顺序,最前面一项链接到根节点,后面一项被链接到前面一项,并计数 3)对于有共享前缀的,计数加1并在该前缀基础上创建一个新节点 TID Items T100 I2, I1, I5 T200 I2, I4 T300 I2, I3 T400 I2, I1, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I2, I1, I3, I5 T900 I2, I1, I3 4) 创建项类表,使得每个项通过一个节点链指向它在树中的出现。(如p240的figure6.8) Construct FP-tree from a Transaction Database {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 min_support = 3 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m,
您可能关注的文档
- 手工制作pcb电路板(公开课)要点解析.ppt
- 手绘对设计师的重要性--巫小伟要点解析.ppt
- 万方检索培训(201003吉大)要点解析.ppt
- 数字图像处理第三章图象处理中的压缩编码要点解析.ppt
- 手机标志设计含义要点解析.ppt
- 数字图像处理第五章ME和MC技术要点解析.ppt
- 手机测试体系初步认识要点解析.ppt
- 数字图像处理-第一章要点解析.ppt
- 万方医学网使用方法与检索技巧介绍-详版要点解析.ppt
- 手机单兵解决方案要点解析.ppt
- 2025年休闲食品健康化转型下的市场拓展策略与渠道创新报告[001].docx
- 农村电商服务站品牌建设:2025年运营模式创新与品牌传播报告.docx
- 2025年互联网金融平台合规整改与金融科技监管的合规监督与可持续发展策略.docx
- 2025年短视频平台内容监管与平台社会责任关系研究报告.docx
- 农产品溯源体系在农产品质量安全监管中的信用体系构建与实施策略研究.docx
- 2025年工业互联网平台数据备份与恢复策略创新方案探讨.docx
- 2025年线上法律咨询服务平台法律咨询行业竞争策略研究.docx
- 农业产业集群农产品流通体系构建与发展机制报告.docx
- 智能制造领航者:2025年3D打印技术在规模生产中的应用效果分析报告[001].docx
- 农村金融服务创新与农村金融消费者权益保护法规实施效果分析报告.docx
文档评论(0)