数据挖掘4关联规则要点解析.pptVIP

下载本文档

26
0
约1.03万字
约 41页
2016-04-23 发布于湖北
举报
版权申诉

数据挖掘4关联规则要点解析.ppt

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

找到的所有频繁项集 {I1，I2}；{I1，I3}；{I1，I5}；{I2，I3}；{I2，I4}；{I2，I5}； {I1，I2，I3}；{I1，I2，I5}。从频繁集生成强关联规则（满足min_sup和min_conf）: 对于每个频繁项集l ，产生所有非空子集s 对于l的每个非空子集，如果 count（l）/count（s）≥min_conf, 则输出规则 s?(l-s) 如：l={I1,I2,I5}, 非空子集：{I1}, {I2}, {I5}, {I1,I2}, {I1,I5}, {I2,I5} s={I1,I2}, l-s={I5}; count(l)/count(s)=2/4 s={I1,I5}, l-s={I2}; count(l)/count(s)=2/2 s={I2,I5}, l-s={I1}; count(l)/count(s)=2/2 s={I1}, l-s={I2,I5}; count(l)/count(s)=2/6 s={I2}, l-s={I1,I5}; count(l)/count(s)=2/7 s={I5}, l-s={I1,I2}; count(l)/count(s)=2/2 然后得到如下的规则：如果min_conf＝70％，则可得到并输出下列的结果（强关联规则）：关联规则挖掘算法主要考虑的问题有以下两个：（1）减少I/O操作。关联规则挖掘的数据集有时可达GB甚至TB数量级，频繁的I/O操作必将影响关联规则的挖掘效率，减少I/O操作的方法主要是减少扫描数据集D的次数。（2）降低需要计算支持度的项目集（常称为候选项集）的数量，使其与频繁项目集的数量接近。候选项目数量的降低可以节省为处理部分候选项目集所需的计算时间和存储空间。 Aprior算法最直观，最易理解，但 ①需要产生大量的候选项集，工作量很大。 ②需要重复地扫描数据库，通过模式匹配检查一个很大的候选集合（长模式时尤其如此）。 3.2 FP_tree growth algorithm不产生候选项集的频繁项集挖掘方法能提供频繁项集的数据库压缩到频繁模式树（Frequent Pattern Tree）上，分成一组条件数据库，再由这些条件数据库生成频繁项集。 How does FP_tree growth algorithm to find frequent itemsets? FP-tree growth Algorithm Input：A transaction database D, min-sup Output: the complete set of frequent patterns Method: Step1.第一次扫描数据库，计数并导出L1的集合，最后使得L1中的每件事务中的项按count的降序排列，记为L Item set Support I2 7 I1 6 I3 6 I4 2 I5 2 上例的事务数据库得到的L Step2. 构造FP-tree.( 包括Item ID, Support count Node link) Step2.1 创建根节点，记为null Step2.2 第二次扫描数据库，对每一个事务中的项按L中的次序重新排列处理（如右表）然后对每个事务创建一个分枝（一棵子树）： 1）分枝的节点数＝事务中的项数 2）按顺序，最前面一项链接到根节点，后面一项被链接到前面一项，并计数 3）对于有共享前缀的，计数加1并在该前缀基础上创建一个新节点 TID Items T100 I2, I1, I5 T200 I2, I4 T300 I2, I3 T400 I2, I1, I4 T500 I1, I3 T600 I2, I3 T700 I1, I3 T800 I2, I1, I3, I5 T900 I2, I1, I3 4）创建项类表，使得每个项通过一个节点链指向它在树中的出现。（如p240的figure6.8） Construct FP-tree from a Transaction Database {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 min_support = 3 TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m,