logo

您所在位置网站首页 > 海量文档  > 教学课件 > 大学课件

数据挖掘4关联规则要点解析.ppt 41页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
找到的所有频繁项集 {I1,I2};{I1,I3};{I1,I5};{I2,I3};{I2,I4};{I2,I5}; {I1,I2,I3};{I1,I2,I5}。 从频繁集生成强关联规则(满足min_sup和min_conf): 对于每个频繁项集l ,产生所有非空子集s 对于l的每个非空子集,如果 count(l)/count(s)≥min_conf, 则输出规则 s?(l-s) 如:l={I1,I2,I5}, 非空子集:{I1}, {I2}, {I5}, {I1,I2}, {I1,I5}, {I2,I5} s={I1,I2}, l-s={I5}; count(l)/count(s)=2/4 s={I1,I5}, l-s={I2}; count(l)/count(s)=2/2 s={I2,I5}, l-s={I1}; count(l)/count(s)=2/2 s={I1}, l-s={I2,I5}; count(l)/count(s)=2/6 s={I2}, l-s={I1,I5}; count(l)/count(s)=2/7 s={I5}, l-s={I1,I2}; count(l)/count(s)=2/2 然后得到如下的规则: 如果min_conf=70%, 则可得到并输出下列的结果(强关联规则): 关联规则挖掘算法主要考虑的问题有以下两个: (1)减少I/O操作。关联规则挖掘的数据集有时可达GB甚至TB数量级,频繁的I/O操作必将影响关联规则的挖掘效率,减少I/O操作的方法主要是减少扫描数据集D的次数。 (2)降低需要计算支持度的项目集(常称为候选项集)的数量,使其与频繁项目集的数量接近。候选项目数量的降低可以节省为处理部分候选项目集所需的计算时间和存储空间。 Aprior算法最直观,最易理解,但 ①需要产生大量的候选项集,工作量很大。 ②需要重复地扫描数据库,通过模式匹配检查一个很大的候选集合(长模式时尤其如此)。 3.2 FP_tree growth algorithm 不产生候选项集的频繁项集挖掘方法 能提供频繁项集的数据库压缩到频繁模式树(Frequent Pattern Tree)上,分成一组条件数据库,再由这些条件数据库生成频繁项集。 How does FP_tree growth algorithm to find frequent itemsets? FP-tree growth Algorithm Input:A transaction database D, min-sup Output: the complete set of frequent patterns Method: Step1.第一次扫描数据库,计数并导出L1的集合,最后使得L1中的每件事务中的项按count的降序排列,记为L Item set Support I2 7 I1 6 I3 6 I4 2 I5 2 上例的事务数据库得到的L Step2. 构造FP-tree.( 包括Item ID, Support count Node link) Step2.1 创建根节点,记为null Step2.2 第二次扫描数据库, 对每一个事务中的项按L中的次序重新排列处理 (如右表) 然后对每个事务创建一个分枝(一棵子树): 1)分枝的节点数=事务中的项数 2)按顺序,最前面一项链接到根节点,后面一项被链接到前面一项,并计数 3)对于有共享前缀的,计数加1并在该前缀基础上创建一个新节点 TID Items T100 I2, I1, I5 T200 I2, I4 T300 I2, I3 T400 I2, I1, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I2, I1, I3, I5 T900 I2, I1, I3 4) 创建项类表,使得每个项通过一个节点链指向它在树中的出现。(如p240的figure6.8) Construct FP-tree from a Transaction Database {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 min_support = 3 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m,

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556