- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种挖掘负关联规则有效方法
一种挖掘负关联规则有效方法
摘要: 负关联规则表示2个项集之间的互斥或否定关系,往往隐藏在数量庞大的非频繁项集中,有很强的相关性且包含了重要的信息.提出了一种基于相关系数和最小兴趣度的挖掘负关联规则的方法,并给出了相应的算法,实验表明该算法能有效提高挖掘效率.
?
关键词: 数据挖掘;负关联规则;相关系数; 最小兴趣度?
中图分类号:TP 181
文献标志码:A文章编号:1672-8513(2011)04-0301-04
??
An Effective Method for Mining Negative Association Rules
ZHANG Ya?fen, WANG Xin
?
(School of Mathematics and Computer Science, Yunnan University of Nationalities, Kunming 650500, China)
Abstract: Negative association rules are always hidden in the huge infrequent items, but they also have strong correlation and contain important information. This paper presents an effective method based on the correlation and coefficient to estimate NAR and a proposal. The experiment results show that this algorithm is effective in improving the mining efficiency.
?
Key words: data mining; negative association rules; correlation coefficient; minimum interestingness
??
1 问题概述?
传统的关联规则挖掘算法是依赖于支持度和置信度来挖掘的,它最初是由Agrawal 等于1993年提出来的[1-2],经典的Apriori算法也被同时提出.关联规则的任务就是挖掘出同时满足支持度和置信度最小阈值的规则.?
下面来看一个例子[3-4],希望分析爱喝咖啡和爱喝茶的人之间的关系.收集一组人关于饮料偏爱的信息,并汇总在表1中.?
根据表中所给的信息来评估关联规则:茶→咖啡.根据传统的关联规则挖掘算法,通过计算支持度和置信度的方法除去无意义的规则.下面计算该条规则的支持度和置信度:?
支持度?s?=喝茶同时喝咖啡的人数/总人数=150/1000=15%,置信度?c?=喝茶同时喝咖啡的人数/喝茶的人数=?150/200=?75%.发现该条规则的支持度和置信度都很高,似乎喜欢喝茶的人也喜欢喝咖啡.但是再仔细观察表中的数据可以发现,不管他是否喝茶,喝咖啡的人的比例为800/1000=80%,而喝咖啡的饮茶者却只占75%.这说明一个人如果喝茶,则他喝咖啡的可能性由80%下降到75%.从该实例中???以发现置信度的缺陷在于该度量忽略了规则后件中项集的支持度.更奇怪的是喝咖啡的饮茶者所占的比例75%实际少于所有喝咖啡的人所占的比例80%,这表明饮茶者和喝咖啡的人之间存在着一种逆关系,这也是种关联规则,只是它是一种负相关[4] ?,称之为负关联规则,与之相对的传统关联规则即为正关联规则.?
在上述实例中发现基于这种框架的关联规则挖掘存在一定的缺陷和局限性,在挖掘过程中,将会丢失许多有价值的信息,从而给决策者带来一定的误导.因此在挖掘过程中,需要重视负关联规则的挖掘.例如在购物篮分析中,负关联规则表明顾客购买某些商品有可能就不购买某些商品,这对决策者设计商店布局有一定的导向性;在投资、营销或者广告策划等诸多领域的决策过程中,负关联规则同样有着不容忽视的作用.?
对于负关联规则的研究,最初是由Brin等在文献[5]中提出2个频繁项集间的负相关;Savasere 等在文献[6]中研究了强负关联规则问题;WU Xindong等[7]提出一种PR模型.之后许多学者研究关于负关联规则算法以及改进,如文献[8-9].本文提出了一种结合相关系数和最小兴趣度2个度量的负关联规则算法,其中相关系数用以识别关联规则是正规则还是负规则,比较方便简单,避免了对决策者的误导;最小兴趣度保证了所挖掘产生的负关联规则的有效性,避免了大量冗余的规则产生,给决策者带来一定
原创力文档


文档评论(0)