超越支持度-置信度框架的负相关规则对挖掘.doc

超越支持度-置信度框架的负相关规则对挖掘.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
超越支持度-置信度框架的负相关对规则挖掘* 钱铁云1 冯小年2 王元珍1 (1. 华中科技大学计算机学院数据库与多媒体技术研究所,武汉,430074) (2. 中国电力财务有限公司华中分公司,武汉,430062) 摘要:相关规则比传统的关联规则更具有实际意义,但现存的相关规则挖掘算法均需利用apriori类似算法挖掘具有高支持度的项集,再对获得的项集进行相关性测试而获取相关规则,这导致低支持度-高相关度的规则不易被发现。直接挖掘相关规则的困难在于候选相关项不能利用apriori类似性质进行剪枝而导致的搜索空间爆炸增长,本文提出的算法MNI利用Phi相关系数的下界来产生候选负相关项,从而缩小负相关项搜索空间,并证明了该算法的完全性和正确性。在负相关项对基础上利用规则可靠度产生负相关规则时,提出将负相关对计数统一转化为正相关对计数的方法。在真实数据集上的实验结果表明算法MNI能有效提高负相关项对的挖掘速度。 关键词:关联规则,相关规则,Phi相关系数,规则可靠度 Mining Negative Correlation Rules Beyond Support-Confidence Framework QIAN Tie-yun1 FENG Xiao-nian2 WANG Yuan-zhen1 (1.Computer Science Department, Huazhong University of Science and Technology, Wuhan, 430074,China) (2. China Power Finance Company, Huazhong Branch, Wuhan, 430062, China) Abstract: High correlation rules are more practical than traditional association rules,but existed correlation rule mining algorithms are almost apriori-based, this results in the difficulty of finding correlation rules with low support but high correlation. In this paper a new algorithm called MNI is introduced to use the lower bound of Phi correlation coefficient to generate all candidate negative correlation items and reduce explosive search space. Both the completeness and correctness of MNI are proved. Negative correlation rules are mined using reliability measure without directly counting the number of negative correlation pairs. Experiments on real datasets show that the algorithm is quite efficient in negative correlation items mining. Keyword: Association Rules, Correlation Rules, Phi Correlation Coefficient, Rule Reliability Measure 引言 关联规则挖掘用于寻找大型事务数据库中项之间的有趣关系。针对该问题已经进行了广泛的研究,其中最为著名的算法是apriori算法[1]和fp-tree方法[2],但是使用支持度-置信度框架的关联规则挖掘均存在以下问题:尽管A=B是符合最小支持度、置信度要求的强规则,但是A和B的出现是独立的(或基本独立),即它们之间实际上并没有(或很少有)相关性。相关性问题首先在文[3]中被研究,该文提出利用χ2进行显著性测试,再利用P(A∧B)/(P(A)*P(B))来判断A与B之间存在的正、负相关性。A、B间支持度和相关性高低程度可能存在如下组合(按支持度-相关性):Low-Low、High-Low、 High-High、Low-High。L-L型显然不属于问题考虑范围, H-L型的则存在如前所述的缺点, H-H型的是必须考虑的,L-H型的在事务数据库中可用于挖掘较少购买但是非常昂贵物品如项链和耳环之间的关联关系,而在关联文本

文档评论(0)

泡泡鱼 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档