用MAQA算法挖掘定量型关联规则.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用MAQA算法挖掘定量型关联规则 张瑞2熊范纶粱曼君2乔克智 1 (中国科学院台肥智能所合肥,230031 摘要KDD是近年来的一个新兴研究领域.挖掘关联规则是其中屉常使用的技术之一。本文介绍 了定量型关联规则的挖掘技术,给出了一种算i击,并介绍了对该算法的应用情况。 关键词关联规则定量型关联规则最小支持度最小置信度 1引言 Rule)。所谓关联规则就是描述数据库中数据项(属性,变量)之间所存在的(潜在j 务数据库,其中每个事务r是一个项目子集仃∈,},并具有一个唯一的标汉符lD。关 与这条规则相关:如果事务数据库中的s%的事务包含Xuy,那么我们说关联规则 Xj jI,的置信度(confidence)为c。 含r,那么我们说关联规则x 从关联规则的定义我们可以知道,发掘关联规则问题可以被看做是在一个所有属性 均为布尔类型的关系表中寻找“1(r)”值之间的关联,即在一个给定记录中,某个属 性的值为“l”则表示在相应的事务中包含了相应的项目,否则属性值为…0’。这种情 况称为布尔型关联规则问题。但是,在绝大多数商业及科学领域中,属性的类型是多种 多样的。当属性都是定量型(如:年龄、价格)或离散型(如:城市规模、商品种类j, 则在这些属性中发现关联规则问题就被称为定量型关联规则问题(这里我们把定量型属 性和离散型属性统称为定量型属性)。 2 MAQa算法 目前已经存在很多算法来发现布尔型关联规则。定量型关联规则问题于1996年提出时, 人们很容易想到的解决方法就是将其对应到布尔型关联规则问题上,即每个属性值都对 应于一个新的布尔型属性,再在其上使用发掘布尔型关联规则的算法。但是如果所有的 属性都是离散型或定量型属性只取少数几种值、这种对应还比较直接明了:如果定量型 属性取值范围很大.这种一对鹿就显得不实用,就有必要对属性进行划分.再对应到 本科题得到国家自然科学茸资助 3 9 2 作者单位:合肥工业大学计算机采(台肥.2 D o 0 应到布尔型属性上去。MAQA(MiningAssociation 鉴了这个思想,采用了一种划分.合并方法来把定量型属性转化为布尔型属性,其算法 步骤为: (1)用一个聚类算法来决定定量属性和离散型属性的划分问题。 (2)把定量型属性和离散型属性的若干区间和(一系列)值对应到一系列连续整数上 去。所有的属性,整数对在一起构成一个项目集。 items)来构成频繁项目集。所谓感兴趣 f3)从项目集中发现感兴趣的项目(investing 的项目就是指与该项目对应的事务数目大于等于用户规定的最小去持度(supp)。 (4)循环执行下列操作:合并一些相邻的定量值,找出合并后的持度大于等于supp 的项目,并把它们加到频繁项目集中。 (5)用频繁项目集来产生关联规则。如果ABCD和AB都是频繁项目集,则 必定大于等于 supportABjCD supp,我们可以用计算 于用户规定的最小置信度(conf),则该规则成立。 16)决定j鸯出的感兴趣的规则。 型算法,所以下面我们只说明一下第(】)步和第(4)步。 在第(1)步中进行属性划分的时候,如果某个属性的取值数目超过预先设定的门 限Ⅳ,我们就把它划分成若干区间或若干集合.对某个属性的每一种取值,计算与其对 应的事务数目,计算结果构成集lc。Ic表示这样一个集合:{(x,v,”h∈1,,v是属性x 的取值,∈P是D中的事务数),其中户代表正整数集合。 事务数 m I垒羔羔 属性值 圈2

文档评论(0)

wuhuaiyu002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档