数据挖掘关联分析.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘关联分析.doc

数据挖掘关联分析1-项集的集合Ll,L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集并利用事先设定好的最小支持度阈值进行筛选,将小于最小支持度的候选项集删除,再进行下一次的合并生成该层的频繁项集经过筛选可减少候选项集数,从而加快关联规则挖掘的速度 2.2 算法的挖掘 如果一个项集是频繁的,那么它的所有子集都是频繁的 先验原理成立的原因: 一个项集的支持度不会超过其任何子集的支持度 该性质称作支持度的反单调性质 2.2.1候选项集的生成 Apriori 算法使用了Apriori性质来产生候选项集. 任何非频繁的 ( k-1 )项集都不可能是频繁k-项集的子集. 因此,如果一个候选k-项集的( k-1 )-子集不在Lk-1中,则该候选项集也不可能是频繁的,从而可以从Ck中删除. Apriori流程图 2.2.3候选项集的支持度计算 扫描事务数据库,决定每个候选项集的支持度。 为了减少比较次数,将候选项集保存在散列(hash)结构中,将每个事务与保存在散列 结构的候选项集作匹配 2.3基于Apriori算法的数据挖掘应用实例 2.3.1数据库样本 当前是列出我们实验中用到的一个候选项集: {1 4 5}, {1 2 4}, {4 5 7}, {1 2 5}, {4 5 8}, {1 5 9}, {1 3 6}, {2 3 4}, {5 6 7}, {3 4 5}, {3 5 6}, {3 5 7}, {6 8 9}, {3 6 7}, {3 6 8}。 2.3.2Apriori算法的实现过程 首先设置散列函数,和叶子大小限制。 根据以上限制,先根据首项形成初步的散列树,见下图: 图:生成候选的散列树 图:生成候选的散列树 图:生成候选的散列树 2.4 Apriori算法的优缺点 1 ) 产生大量的频繁集 2 ) 重复扫描事务数据库. 2.5 Apriori算法的优化思考 我们从复杂度方面考虑: 最小支持度阈值的选择 低支持度阈值导致更多频繁项集 将会增加候选项集的个数和频繁项集的最大长度 数据库的维度,即项的个数 需要更多空间保存每个项的支持度计数 如果频繁项集的个数增加,则计算量和 I/O开销也增加 数据库的大小 由于Apriori多次访问数据库,算法的运行时间将随事务个数的增加而增加 平均事务长度 事务长度随数据库密度的增加而增加 可能会增加频繁项集的最大长度和散列树的遍历时间(因为事务的子集个数随着其长度的增加而增加)

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档