基于概念格和Apriori的关联规则挖掘算法比较.pdfVIP

基于概念格和Apriori的关联规则挖掘算法比较.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于概念格和Apriori的关联规则挖掘算法比较.pdf

基于概念格和Apriori的关联规则挖掘算法比较 王德兴+胡学钢 王浩 (合肥工业大学计算机与信息学院230009) 摘要概念格通过内涵和外延及概念间泛化和例化的关系来表示知识,因而适用于从数据 库中挖掘规则的问题描述.在概念格的内涵中引入等价关系所得到扩展概念格,则 进一步丰富了内涵间的关系,将概念外延量化得到量化概念格.利用量化概念格挖 掘关联规则,与采用Apriori算法计算频繁项目集获取关联则相比较,不需要计算频 繁项目集,容易获得用户感兴趣的关联规则,同时减少了大量冗余的规则,提高了 挖掘效率. 关键词关联规则,Apri砸算法,概念格 1引言 数据挖掘是从数据中提取出人们感兴趣的、潜在的、可用的知识,并把它们表示成用户 可理解的形式。关联规则发现是数据挖掘的一个重要分支,关联规则是描述数据库中数据项 (属性、变量)间存在的潜在关系,在有关关联规则挖掘的算法中,较著名的是R.Agrawal 等人于1993年提出的Apriori算法is],是最有影响的挖掘布尔型频繁项目集的算法,目前常见 的关联规则挖掘算法大多是在该算法的基础上加以改进的,但其时间性能方面,大量的冗余 规则,规则表示等方面不尽人意。 基于量化概念格【1’2埘的关联规则挖掘能较好地解决该算法存在的问题。采用量化概念格挖 掘所蕴涵的关联规则,会减少Apriori算法中大量冗余的规则,对用户而言,寻找感兴趣的规 则变得容易,重要的是,借助于量化概念格的哈斯图,用户可方便地寻找感兴趣的知识结点 间的关联规则,计算其支持度和可信度,从而提高了挖掘的效率和准确性。 2关联规则的问题描述 set)。在事务数据库D中,事务T 令I=【il,i2。,i3,...i。】是n个不同项目的集合(Item ’王德兴,合肥工业大学计算机软件与理论专业硕士研究生,研究方向:KDD;胡学钢,博士,合肥工业 大学副教授,研究方向:知识工程,KDD,算法设计;王浩,博士,副教授,研究方向:KDD,软件工程。 标识符,在数据库D全局唯一,X1,3c2,)C3…xm∈I,m≤n,即每个事务T是项目的集合,使得T_I。 设A是一个项目集,事务T包含A当且仅当Ac_T。关联规则就是一个形如AjB的逻辑蕴 含AuB(且PA和B二者)的百分比,P(AuB)是概率:若在D中包含A的事务中同时也包含B, 则规则A≥B的可信度C(Confidence)定义为: 即在D中,在事务中包含A同 Confidence(AjB)-P(B[A)=Support(AmB)/Support(A)=C, 时也包含B的百分比是C,P(BIA)是条件概率。同时满足支持度阈值和可信度阈值的规则称作 强规则。为挖掘有效的关联规则(强规则),挖掘过程须分成下列两步进行: ·挖掘D中的所有频繁项目集,要求其支持度大于支持度阈值。 ·基于频繁项目集生成所有的关联规则,要求其可信度大于可信度阈值。 3Apriori算法描述及特点 Apfiofi算法是最有影响的挖掘布尔型频繁项目集的算法,该算法采用逐层搜索迭代i即 用k.项目集求取k+1.项目集,首先找出频繁1.项目集Ll,在Ll上找出频繁2-项目集L2,依次 类推,直到不能找到频繁K.项目集为止。由于Apfiofi算法要求项目集的所有非空子集都必须 是频繁的,因此在数据库中D的事务中寻找频繁项目集时,需要进行连接和剪枝,才能挖掘 强关联规则,其可信度是用频繁项目集的支持度来表示的,即Confidence(A≥B) =P(B[A)=P(Au;B)/P(A),因此关联规则可以按如下方式产生:①对于每个频繁项目集L, 产生L所有的非空子集。②对于L的每个非空子集S,如果其可信度大于可信度阈值,则可产 生关联规则“Sj(L-S)”。 该算法通过发现支持度大于用户设定的支持度阈值的频繁项目集,再从频繁项目集中挖 掘可信度大于用户设定的阈值的关联规则,因而可能存在如下问题:①所挖掘出来的规则存 在大量冗余,可能出现组合爆炸;②挖掘规则的计算量呈指数增加,因而提交给用户的规则 数量

您可能关注的文档

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档