基于概念格和Apriori的关联规则挖掘算法比较.pdfVIP

下载本文档

4
0
约7.32千字
约 5页
2017-03-18 发布于未知
举报
版权申诉

基于概念格和Apriori的关联规则挖掘算法比较.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于概念格和Apriori的关联规则挖掘算法比较.pdf

基于概念格和Apriori的关联规则挖掘算法比较王德兴+胡学钢王浩 (合肥工业大学计算机与信息学院230009) 摘要概念格通过内涵和外延及概念间泛化和例化的关系来表示知识，因而适用于从数据库中挖掘规则的问题描述．在概念格的内涵中引入等价关系所得到扩展概念格，则进一步丰富了内涵间的关系，将概念外延量化得到量化概念格．利用量化概念格挖掘关联规则，与采用Apriori算法计算频繁项目集获取关联则相比较，不需要计算频繁项目集，容易获得用户感兴趣的关联规则，同时减少了大量冗余的规则，提高了挖掘效率．关键词关联规则，Apri砸算法，概念格 1引言数据挖掘是从数据中提取出人们感兴趣的、潜在的、可用的知识，并把它们表示成用户可理解的形式。关联规则发现是数据挖掘的一个重要分支，关联规则是描述数据库中数据项 (属性、变量)间存在的潜在关系，在有关关联规则挖掘的算法中，较著名的是R．Agrawal 等人于1993年提出的Apriori算法is]，是最有影响的挖掘布尔型频繁项目集的算法，目前常见的关联规则挖掘算法大多是在该算法的基础上加以改进的，但其时间性能方面，大量的冗余规则，规则表示等方面不尽人意。基于量化概念格【1’2埘的关联规则挖掘能较好地解决该算法存在的问题。采用量化概念格挖掘所蕴涵的关联规则，会减少Apriori算法中大量冗余的规则，对用户而言，寻找感兴趣的规则变得容易，重要的是，借助于量化概念格的哈斯图，用户可方便地寻找感兴趣的知识结点间的关联规则，计算其支持度和可信度，从而提高了挖掘的效率和准确性。 2关联规则的问题描述 set)。在事务数据库D中，事务T 令I=【il，i2。，i3，．．．i。】是n个不同项目的集合(Item ’王德兴，合肥工业大学计算机软件与理论专业硕士研究生，研究方向：KDD；胡学钢，博士，合肥工业大学副教授，研究方向：知识工程，KDD，算法设计；王浩，博士，副教授，研究方向：KDD，软件工程。标识符，在数据库D全局唯一，X1，3c2，)C3…xm∈I，m≤n，即每个事务T是项目的集合，使得T_I。设A是一个项目集，事务T包含A当且仅当Ac_T。关联规则就是一个形如AjB的逻辑蕴含AuB(且PA和B二者)的百分比，P(AuB)是概率：若在D中包含A的事务中同时也包含B，则规则A≥B的可信度C(Confidence)定义为：即在D中，在事务中包含A同 Confidence(AjB)-P(B[A)=Support(AmB)／Support(A)=C，时也包含B的百分比是C，P(BIA)是条件概率。同时满足支持度阈值和可信度阈值的规则称作强规则。为挖掘有效的关联规则(强规则)，挖掘过程须分成下列两步进行： ·挖掘D中的所有频繁项目集，要求其支持度大于支持度阈值。 ·基于频繁项目集生成所有的关联规则，要求其可信度大于可信度阈值。 3Apriori算法描述及特点 Apfiofi算法是最有影响的挖掘布尔型频繁项目集的算法，该算法采用逐层搜索迭代i即用k．项目集求取k+1．项目集，首先找出频繁1．项目集Ll，在Ll上找出频繁2-项目集L2，依次类推，直到不能找到频繁K．项目集为止。由于Apfiofi算法要求项目集的所有非空子集都必须是频繁的，因此在数据库中D的事务中寻找频繁项目集时，需要进行连接和剪枝，才能挖掘强关联规则，其可信度是用频繁项目集的支持度来表示的，即Confidence(A≥B) =P(B[A)=P(Au；B)／P(A)，因此关联规则可以按如下方式产生：①对于每个频繁项目集L，产生L所有的非空子集。②对于L的每个非空子集S，如果其可信度大于可信度阈值，则可产生关联规则“Sj(L-S)”。该算法通过发现支持度大于用户设定的支持度阈值的频繁项目集，再从频繁项目集中挖掘可信度大于用户设定的阈值的关联规则，因而可能存在如下问题：①所挖掘出来的规则存在大量冗余，可能出现组合爆炸；②挖掘规则的计算量呈指数增加，因而提交给用户的规则数量