二次挖掘相联规则算法.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
二次挖掘相联规则算法,关联规则挖掘算法,数据挖掘关联规则算法,数据挖掘算法,数据挖掘十大算法,数据挖掘十大算法pdf,关联规则算法,关联规则apriori算法,数据挖掘原理与算法,文本挖掘算法

第 32 卷第2 期 Vol. 32 No.2 吉林大学学报(工学版) 2002 年 4 月 Journal of Jilin University (Engineering and Technology Edition) Apr.2002 文章编号: 1671 - 5497(2002)02 - 0073 一 05 二次挖掘相联规则算法 李雄飞,文IJ 光远,郭励焕,范森森,侯天伦 (吉林大学计算机科学与技术学院,吉林长春 130025) 摘要:通过研究、分析 FUP 等算法,提出用于二次挖掘相联规则的算法 SuperFUP。该算法 更多关注的是新增数据,只对整个数据库扫描一次就能在变更的数据中发现相联规则,从而提 高了算法效率。 关键词:数据挖掘;相联规则;算法 中图分类号:TP391 文献标识码:A 。引言 在实际运用相联规则时,我们发现两种情形:①数据库内容的改变对规则的影响。时代在发展,知 识也在不断地更新。虽然我们已经对数据库进行了知识挖掘,但是随着时间的推移,数据库规模不断膨 胀,蕴含在数据库中的知识会发生改变,因此需要对数据库进行二次挖掘。②确定最小支持度阔值和最 小信任度阔值问题。确定相联规则的阔值是一个反复探索的过程,用户通过不断修正这些阁值,使发现 的相联规则越来越接近真实的知识。采用不同的阔值会产生不同的相联规则集。由于发现规则集的过 程需要大量的时间,如何利用前次挖掘发现的规则去指导新闰值下的规则挖掘就成为关注的焦点。二 次挖掘算法就是利用已经挖掘到的规则作指导,在变化了的数据集上发现新规则,进一步解决知识更迭 问题。 用 Apriori[l] 等算法对变化的数据库进行再次挖掘是一种简单方法,但是由于没有充分利用以前的 挖掘结果,增加很多不必要的运算时间。为了充分利用前一次挖掘中发现的规则,人们提出很多算 法[2-6] 。文献[2]提出与 Apriori 算法框架相一致的 FUP 算法,文献[5] 给出了在数据库发生增删情况 时解决相联规则更新问题的 FUP2 算法。 DELI 算法[6] 用来估计数据库发生变化前后的相联规则变化 情况,若变化较大,就进行相联规则更新,以避免不必要的时间消耗。文献[3 , 4] 针对数据库保持不变, 阔值发生变化的情况提出相联规则更新算法,如 IUA、 PIUA 和 NEWIUA 等。本文探讨 FUP 的改进算 法 SuperFUP。 1 FUP 算法分析 最早的相联规则二次挖掘算法是由 Cheung 等人在 1996 年提出的 FUP(Fast Update) 算法[2] 。这 种算法的核心是多次迭代,通过每次迭代产生长度更大的频繁项集,算法结构和 Apriori[l] 、 DHP[7] 等算 法相同。相联规则增量算法中的符号定义如下:DB 是更新前的数据库jdb 是数据库中增加的记录的 集合j (DB + db)是更新后的数据库jlDBI 是数据库 DB 中的记录数j Idb I 是数据库 db 中的记录数; 收稿日期:2001-12-30 基金项目:国家自然同学基金资助项1 :1 ; 吉林省自然科学基金资助项目 作者简介:李雄飞(1963 - ).男,吉林省市林I Jj人,吉林大学副教授G . 74 . 吉林大学学报(工学版) 第 32 卷 IDB + dbl 是数据库(DB + clb) 中的记录数;minsup 是用户定义的最小支持度;minconf 是用户定义的最 小置信度;L 是数据库DB 中的频繁项集; Ldb 是数据库db 中的频繁项集; L (DB + db) 是数据库(DB 十 DB 是 的负边界 是 db) 中的频繁项集;N

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档