- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库中加权关联规则的发现
@2001JournalDSoftware软件
数据库中加权关联规则的发现
欧陌寿民,部诚.莽废圭.
(安徽大学计算中心,妻徽台肥230039)i
(安徽大学计算机系,妻徽台肥230039);
a(中国科学技术大学计算机科学技术系,安徽台肥330027)
E—mail:oywm@lTlar$
http:/
摘要:关联规则发现是敷据库中知识发现研究中的热点课题,有看广泛的应用领域在现有的研究中,数据库中
的各十项目是按平),也称数据发掘
(datamining).受到当今国际人工智能与数据库界的广泛重视一关联规则是KDD研究中的一个
重要的研究课题.该问题是由RAgrawal等人提出的,目的是要在交易数据库中发现各项目之间
的关系’.例如,有这样一条关联规则:黄油,牛奶面包(30和2)其含义是购买了黄油和牛
奶的顾客还将购买面包,3O%和2%分别是该规则的信任度和支持度.在关联规则发现研究中最着
名的算法是RAgrawal等人提出的Apriori算法该算法将关联规则的发现分为两步.第1步是识
别所有的频繁项目集(frequentitemset),即其支持不低于用户最低支持(minimumsupport)的项目
集第2步是从频繁集中构造其信任不低于用户最低信任(minimumconfidence)的规则.其他太多
数算法都是在该算法的基础上加以改进或扩展的,基本框架没有变化.
该算法实际上存在两太前提假设:(1)数据库中各项目相同的性质和作用.即重要性相同;(2)
数据库中各项目的分布是均匀的,即出现频率相同或相似.也就是说,在该算法框架下,数据库中的
各个项目以平等一致的方式处理.然而,在现实世界数据库中却往往并非如此.当数据库中项目分
布不均匀出现频率相差较大时,就会导致最低支持设高设低都有问题的两难局面,如果设高了,所
发现的关联规则将可能涉及不到出现频率较低的项目;而若设低了,就会发现太多的杖有意义的甚
至是虚假的关联规则,还有可能导致组合爆炸,从而降低算法效率直至不可行.近年来,对这一问
题,国际上已有若干研究工作一J.
然而,对于前一个问题,目前国内外尚未有相关文献.事实上,不同的项目往往有着不同的重要
?规则在与高权值项目相关的同时,很可能
也与低权值项目相关.例如,在促销商品时,我们可能发现商品销售受到商品B的影响.即有
规则占,而商品最初由于我们不感兴趣而被赋予较低的权值如果我们因权值较低而忽略了
商品8,那/厶规则BA就不叮能发现.因此,该方法在这种情况下是不可取的.
另一种方法是直接采纳现有的关联规则发现算法,如Apriori算法.这些算法均基于所谓的向
下闭包性质,即频繁项目集的任一子集必是频繁的然而,在加权关联规则模型中,该性质不再成
立.因此,Aprior定义2.关联规则形如xy的支持度为xUl在交易数据库包含的概率.
定义3.关联规则形如xy的信任度为在某交易中包含x的前提下同时也包含y的概率.
换一种更加通俗的说法就是?关联规则形如xy的支持度为数据库中包含Uy的交易数
与总交易数之比;关联规则形如Xy的信任度为数据库中包含xUy的交易数与包含x的交易
数之比.
给定项目集合I一{i…i..,},为表征项目的重要性,我们为每一个项目i.赋以权值础,,其
中0≤”.≤1,j--{1.2…..)
仿照定义2,我们可以为加权关联规则定义加权支持
定义4.关联规则形如xjy的加权支持(weightedsupport)为
-l(support(Uy)).
rxLY
定义5某一项目集被称为频繁项目集,如果其加权支持不低于最低加权支持阈值∞mn
Sup一即
:J(support(xUyj≥rainsup.
.L
定义6?关联规则xy是令人感兴趣的,如果xUy是频繁项目集.并且其信任度不低于最
低信任阈值minconf
侧1:设有如表1和表2所示的数据库.表1表示各项目的信息,如条形码,商品名,
利润,,NN
等等;表2是交易数据库,对每一笔交易都有一个交易表示符TID以及所购各商品的条形码.
为简
6l4Iou}.fSoY’twar~收忤辱报2001,12(4)
单起见,条形码用自然数来表示
TablelItemsdatabases
表1商品数据库
条形码.窖商品.@利润.权值
Table2Transactiondatabases
表2交易数据库
交易标沮符一≮项H集.
假定交易数据库中共涉及5种商品,7笔交易如果zrainsup为0.4,那么2,5)就是频繁项
目集,因为
【0.3+0.9)×一0.86gt;0.4.
,
同理,4,5},{2,4,5也是频繁的.
2加权关联规则的发现
由于加权关联规则本身所固有的特性,我们需要有新的发现算法.在关联规则发现研究中,以
文献[3提出的A
文档评论(0)