正负关联规则挖掘研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
正负关联规则挖掘研究

正负关联规则挖掘研究   摘要:传统的基于支持度-置信度框架的关联规则挖掘方法可能会产生大量不相关的、甚至是误导的关联规则,同时也不能区分正负关联规则。本文提出了一种评价关联规则的可量化标准,进一步提出一种能同时挖掘正负关联规则的框架,实验证明该方法是有效的。   关键词:关联规则;负关联规则;数据挖掘;兴趣度      引言      关联规则(association rule)是数据挖掘(data mining)研究的主要领域之一,其任务是发现大量数据中项集之间有趣的关联或相关关系。R.Agrawal等人于1993年首先提出关联规则[1]的有关概念,此后许多的学者对关联规则的挖掘问题进行了大量的研究。传统的关联规则挖掘算法仅能挖掘正关联规则,如“买了面包的顾客也可能买牛奶”这样的规则,而忽略了形如“不买咖啡的顾客很可能买牛奶”这样的负规则。在投资分析和竞争分析等许多领域的决策制订过程中,负关联规则的作用不可低估。从系统的完整性角度来看,负关联规则与正关联规则一起为正确决策提供更加全面的信息,正因为如此,负关联规则的研究正受到越来越多的重视。   Brin等人于1997年首次在文献[2] 中就指出了负规则的重要性,阐述了强负关联规则问题[3],这些规则告诉我们负关联规则同样包含了非常有价值的信息,因而负关联规则挖掘具有十分重要的意义。笔者将兴趣度[4]进行了重新定义,并进一步推广,使其不仅能够适用于负关联规则,而且还能够对关联规则的相关性进行判断,并在此基础上提出一个能同时挖掘正、负关联规则的算法。      1 负关联规则挖掘      1.1 支持度-置信度框架   判断关联规则是否有用的框架中,一般比较流行的是 R.Agrawal 提出的支持度-置信度框架(support-confidence)[1]。设i={i1 ,i2 ,...,im }是项的集合。设任务相关的数据 D是数据库事务的集合,其中每个事务T是项的集合,使得T I。每个事务有一个标识符,称作 TID。设 A是一个项集,事务T 包含 A当且仅当 A T。关联规则是形如 A=B的形式,其中 A I, B I,并且 A∩B= 。规则 A=B在事物D中成立,具有支持度s ,其中 s是D中事务包含A∪B的百分比。它的概率为 P(A∪B)。规则A=B在事务集 D中具有置信度c ,如果D中包含A的事务同时也包含B的百分比是 c。这是条件概率 P( B|A),即supp (A∪B)= P( A∪B),conf (A=B)=P(B|A),同时满足最小支持度(min_supp)和最小置信度(min_conf)的规则称为强规则。   1.2 支持度-置信度框架的缺陷   目前常用的关联规则衡量标准是支持度(support)和置信度(confidence)。如果按现有标准来生成关联规则,可能会发现大量冗余的、虚假的关联规则。   让我们先来看表1的实例。事务数据库中有100条记录,讨论这100条记录购买咖啡和牛奶的情况 。设:   milk:代表购买牛奶的人数   coffee:代表购买咖啡的人数   milk:代表不购买牛奶的人数   coffice:代表不购买咖啡的人数   我们来研究关联规则咖啡=牛奶,支持度S=20/100=0.20;置信度C=20/25=0.8。当把置信度和支持度阈值定位低于0.8和0.2时,很显然该规则将会作为强规则之一被挖掘出来,。由此可得出结论,将咖啡和牛奶放在一起将提高牛奶的销售量。   然而,事实并非这样。原始事务库中有90%的顾客会购买牛奶,而从上述挖掘出的关联规则可知,买咖啡的顾客有80%的可能性购买牛奶。也就是说,一个己知买了咖啡的顾客购买牛奶的可能性比一个我们不知道任何信息的顾客购买牛奶的可能性小。事实上,不买咖啡会买牛奶的可能性更大,其置信度=70/75=0.933。从上例可以看出,满足置信度和支持度阈值的关联规则可能是无效的规则。   1.3 负关联规则   定义1对于给定的项集A、B,其中A∩B=Φ,共有8种形式的关联规则   (1)A=B;(2)A=┐B;(3)┐A=B;(4)┐A=┐B;(5)B=A;(6)B=┐A;(7)┐B=A;(8)┐B=┐A   其中(5)~(8)是和(1)~(4)相对应的,将(1)~(4)中的字母A与B交换,就得到(5)~(8).因此,在下面的讨论中,只考虑前4种形式的关联规则,其中把(2)~(4)称为负关联规则,(1)相应地称为正关联规则.      2 支持度-置信度-兴趣度框架      2.1 相关研究   早在1991年Piatetsky Shapiro[6]就指出当支持度满足式(1)时, A=B没有意义。   supp(A∪

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档