基于关系代数的联系规则挖掘算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 西北大学学报 (自然科学版) 2005年 12月,第 35卷第 6期,Dec.,2005,Vo1.35,No.6 JournalofNorh【westUniversity(NaturalScienceEdition) 基于关系代数的关联规则挖掘算法 陈 莉 ,焦李成 (1,西北大学 信息科学与技术学院,陕西 西安 710069;2.西安电子科技大学 雷达信号处理国家重点实验室, 陕西 西安 710071) 摘要:目的 提出基于关系代数理论的关联规则挖掘算法。方法 利用数据预处理方法,剔除无关 属性、获得相应的 目标特征子集。结果 基于 目标特征子集,利用关系矩阵及相关运算给出了搜索 大项集的基于关系代数理论的优化的关联规则挖掘算法,该算法只需扫描数据库一次。结论 克 服 了经典的Apfiofi算法需要多次扫描数据库的缺点,同时算法具有 良好的并行性和可伸缩性。 关 键 词:关系代数 ;关联规则;支持度 ;并行挖掘 中图分类号 :TP301 文献标识码 :A 文章编号 :1000-274X(2005)06-0691-05 关联规则的挖掘最早是 由Agrawal,Imielinski 则表明了A 模式发生的频率。 和Swami提出的[¨,即给定一个事务数据库,人们 定义4 设D是事务集,A,为项集,如果D中 往往希望发现事务 中的关联事实,即事务中一些项 e% 的事务包含事务 ,则称A 有期望置信度 目的出现必定隐含着 同次事务 中其他项 目的出现, (expectedconfidence)e,即概率P()。 这是对关联规则的一个简单描述 。 定义5 置信度与期望置信度之比称为作用度 (1ift),其概率表示为P(BIA)/P(B)。 1 关联规则的概念与过程 显然,置信度是对关联规则的准确度的度量,而 支持度则是对关联规则的重要性的度量,期望置信 设D是事务数据库,I= {i。,i,…,i}是所有 度说明了在有事务集A的作用下,对事务集 本身 项 目的集合,其中 是一个项 目。每个事务 是项 的支持度 ,而作用度则说明了事务集A对事务集 集, ,,标识符为TID。 的影响力的大小。一般地,有用的关联规则的作用度 定义 1 设A,是项集,蕴涵式A 称规则, 都大于 1。置信度、支持度、期望置信度和作用度等4 其中Ac,,Bc,,且AnB= 。 个参数中,常用的是置信度和支持度。下面以这两个 定义2 设D是事务集,A,为项集,且有规则 参数为讨论的依据 。 A 。如果D中,包含Au 事务所 占比例为s%,称 定义6 设D是事务集,A,为项集,若A=vB满 A 有支持度 (suppo~)s,即概率P(Au )。 足置信度c和支持度s,则称A=aB为关联规则。 定义3 设D是事务集,A,为项集,且有规则 对关联规则Aj ,若同时满足最小支持度阈值 AjB。如果D中,c%的事务包含A的同时也包含B, 和最小置信度阈值,则称其为强规则。 则称Aj 有置信度 (confidence)c,即条件概率P( 一 般地,由用户给定最小置信度和最小支持度, lA)。 发现关联规则的任务就是从数据库中发现那些置信 这里,不考虑项 目在事务 中出现的次数。 度和支持度都大于给定阈值的强规则,即挖掘相关 项集的支持度也是指包含该项 目集的事务在D 规则的关键是在大型数据库中发现强规则。 中所占的比例。置信度表明了蕴涵的强度,而支持度

文档评论(0)

精品教学资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档