- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
找到的所有频繁项集 {I1,I2};{I1,I3};{I1,I5};{I2,I3};{I2,I4};{I2,I5}; {I1,I2,I3};{I1,I2,I5}。 从频繁集生成强关联规则(满足min_sup和min_conf): 对于每个频繁项集l ,产生所有非空子集s 对于l的每个非空子集,如果 count(l)/count(s)≥min_conf, 则输出规则 s?(l-s) 如:l={I1,I2,I5}, 非空子集:{I1}, {I2}, {I5}, {I1,I2}, {I1,I5}, {I2,I5} s={I1,I2}, l-s={I5}; count(l)/count(s)=2/4 s={I1,I5}, l-s={I2}; count(l)/count(s)=2/2 s={I2,I5}, l-s={I1}; count(l)/count(s)=2/2 s={I1}, l-s={I2,I5}; count(l)/count(s)=2/6 s={I2}, l-s={I1,I5}; count(l)/count(s)=2/7 s={I5}, l-s={I1,I2}; count(l)/count(s)=2/2 然后得到如下的规则: 如果min_conf=70%, 则可得到并输出下列的结果(强关联规则): 关联规则挖掘算法主要考虑的问题有以下两个: (1)减少I/O操作。关联规则挖掘的数据集有时可达GB甚至TB数量级,频繁的I/O操作必将影响关联规则的挖掘效率,减少I/O操作的方法主要是减少扫描数据集D的次数。 (2)降低需要计算支持度的项目集(常称为候选项集)的数量,使其与频繁项目集的数量接近。候选项目数量的降低可以节省为处理部分候选项目集所需的计算时间和存储空间。 Aprior算法最直观,最易理解,但 ①需要产生大量的候选项集,工作量很大。 ②需要重复地扫描数据库,通过模式匹配检查一个很大的候选集合(长模式时尤其如此)。 3.2 FP_tree growth algorithm不产生候选项集的频繁项集挖掘方法 能提供频繁项集的数据库压缩到频繁模式树(Frequent Pattern Tree)上,分成一组条件数据库,再由这些条件数据库生成频繁项集。 How does FP_tree growth algorithm to find frequent itemsets? FP-tree growth Algorithm Input:A transaction database D, min-sup Output: the complete set of frequent patterns Method: Step1.第一次扫描数据库,计数并导出L1的集合,最后使得L1中的每件事务中的项按count的降序排列,记为L Item set Support I2 7 I1 6 I3 6 I4 2 I5 2 上例的事务数据库得到的L Step2. 构造FP-tree.( 包括Item ID, Support count Node link) Step2.1 创建根节点,记为null Step2.2 第二次扫描数据库, 对每一个事务中的项按L中的次序重新排列处理 (如右表) 然后对每个事务创建一个分枝(一棵子树): 1)分枝的节点数=事务中的项数 2)按顺序,最前面一项链接到根节点,后面一项被链接到前面一项,并计数 3)对于有共享前缀的,计数加1并在该前缀基础上创建一个新节点 TID Items T100 I2, I1, I5 T200 I2, I4 T300 I2, I3 T400 I2, I1, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I2, I1, I3, I5 T900 I2, I1, I3 4) 创建项类表,使得每个项通过一个节点链指向它在树中的出现。(如p240的figure6.8) Construct FP-tree from a Transaction Database {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 min_support = 3 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m,
您可能关注的文档
- 手工制作pcb电路板(公开课)要点解析.ppt
- 手绘对设计师的重要性--巫小伟要点解析.ppt
- 万方检索培训(201003吉大)要点解析.ppt
- 数字图像处理第三章图象处理中的压缩编码要点解析.ppt
- 手机标志设计含义要点解析.ppt
- 数字图像处理第五章ME和MC技术要点解析.ppt
- 手机测试体系初步认识要点解析.ppt
- 数字图像处理-第一章要点解析.ppt
- 万方医学网使用方法与检索技巧介绍-详版要点解析.ppt
- 手机单兵解决方案要点解析.ppt
- 2025年中化集团方舟生招聘笔试备考题库(带答案详解).pdf
- 2025年中建西南设计院招聘笔试备考题库(带答案详解).pdf
- 2025年南通市慈善总会招聘笔试备考题库(带答案详解).pdf
- 2025年江西网吉安分站招聘笔试备考题库(带答案详解).pdf
- 2025年山西三晋都市报招聘笔试备考题库(带答案详解).pdf
- 2025年山西省高河能源招聘笔试备考题库(带答案详解).pdf
- 2024年贵州省毕节地区大方县大水乡招聘社区工作者真题含答案详解.docx
- 2024年贵州省贵阳市开阳县永温乡招聘社区工作者真题及答案详解1套.docx
- 2024年贵州省贵阳市南明区新华路街道招聘社区工作者真题及答案详解1套.docx
- 2024年贵州省遵义市仁怀市长岗镇招聘社区工作者真题及参考答案详解.docx
最近下载
- 2025年太仓市太訸控股集团有限公司第二批公开招聘19人笔试备考题库及答案解析.docx VIP
- 《食管癌综合治疗新进展》课件.ppt VIP
- 商铺租赁合同电子版下载打印.docx VIP
- 2025年太仓市太訸控股集团有限公司第二批公开招聘19人笔试参考题库附答案解析.docx VIP
- 2025年太仓市太訸控股集团有限公司第二批公开招聘19人备考题库及答案解析.docx VIP
- 《危重患者的抢救》课件.ppt VIP
- 孕产妇心肺复苏要点课件.pptx VIP
- 农村小学中高年级学生阅读兴趣培养策略研究-课题申请评审书.docx VIP
- 工程制图制图基础.ppt VIP
- 简约产品订货合同模板.docx VIP
文档评论(0)