基于Apriori相容数据集间关联规则演绎方法.docVIP

基于Apriori相容数据集间关联规则演绎方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Apriori相容数据集间关联规则演绎方法

基于Apriori相容数据集间关联规则演绎方法   摘 要:   Apriori关联规则数据挖掘算法只针对一类相关数据集进行数据挖掘,而现实世界中各种不同的数据集非常庞大,如何在不相关数据集间进行数据挖掘,拓展规则的数量具有挑战性。目前Apriori关联规则算法研究基本上集中在算法性能优化和针对不同数据形式的基础上,没有突破不相关数据集的界限。针对这个问题,首先给出了相关数据集、不相关数据集、相容数据集的概念,进一步给出了一种基于Apriori的不相关数据集中相容数据集间的关联规则演绎算法,给出了算法演绎规则,通过构建法证明了算法的正确性。通过实例演示了应用方法,该算法可实现基于Apriori的相容数据集间关联规则的规则演绎,是普通数据挖掘算法无法实现的,扩展了关联规则算法的应用领域;同时,由于关联规则是在相容数据集上独立挖掘出来的,没有进行原始数据间的交换,在一定程度上实现了隐私保护。   关键词:相容数据集;关联规则;规则演绎;Apriori算法   0 引言   数据挖掘中经典的关联规则算法是Apriori算法[1],目的就是在一个数据集中找出项与项之间的关系。   目前有关Apriori的研究热点集中在提高算法效率方面,通过改变存储结构和数据库扫描方式提高数据挖掘的效率[2-14]。毛宇星等[2]在多层和概化关联规则挖掘算法优化方面取得了相应的成果,同时对增量数据挖掘算法优化也有独到的见解[8];肖波等[4]在超团模式和极大超团模式挖掘方面提出了较好的挖掘算法;吉根林等[13]针对分布式环境下的数据挖掘算法优化方面给出了较好的算法。当然,针对关联规则算法优化问题提出的算法还有很多。   然而,目前Apriori算法和众多改进算法都局限于相关数据集上(相关数据集与不相关数据集概念见定义1和定义2),都没有突破相关数据集的范畴。然而,现实生活中存在着很多具有相容属性的不相关数据集,目前的算法对不相关数据集间具有相容信息的关联规则无法进行规则的演绎,这就在很大程度上限制了关联规则算法的应用。   实际上人们一直在探索关联规则的拓展问题,2004年,有人提出了可拓数据挖掘概念,而且目前已经有一些研究???果[15-19],可拓数据挖掘技术在一定程度上拓展了数据挖掘的规则知识,但它仅仅是在规则基础上的拓展,不是对原始知识的拓展,更重要的是没有突破不相关数据集的局限。   20世纪70年代后期,有人提出演绎数据库的概念,演绎数据库的含义是根据已知的事实和规则进行推理,回答用户提出的各种问题。但它不同于数据挖掘,更不能在不相关数据集间进行查询[19]。   本文突破了数据集的限制,由相关数据集发展到不相关(相容)数据集上。特别是考虑到目前互联网技术和云计算技术的应用和发展,数据量越来越大的现实,提出了一种针对于相容数据集间关联规则间的演绎算法。算法可把不相关数据集上具有相容属性集的关联规则通过演绎计算联系起来,实现真正意义上的规则拓展;该算法可将相容数据集中的关联规则进行合并演绎,实现普通数据挖掘算法无法实现的功能,由于是对相容数据集单独进行数据挖掘,对数据隐私保护具有一定的意义。   1 相容数据集间关联规则的演绎原理   根据经典Apriori算法的基本原理[2],数据挖掘所针对的数据集都是单一的数据集或者是两个或两个以上通过主关键字和外部关键字连接而成的数据集。   数据集间的关系有以下四种形式:   形式一 假设D1、D2中的数据集来自两个不同的群体,不能通过关键字实现两个数据集之间的连接。由于存在共同项,可以产生具有共同项的两个关联规则,本文称D1、D2为相容数据集。   形式二 假设D1、D2中的数据集来自相同的群体,能通过关键字实现两个数据集之间的连接,则这两个数据集属于相关数据集,可用普通的数据挖掘算法进行数据挖掘,不是本文讨论的范围。   形式三 D1、D2中没有共同项,所产生的两个关联规则也没有共同项,也不可能通过关键字实现数据集连接,本文称D1、D2为不相关数据集。   形式四 数据集D1、D2中由于存在完全相同的数据项,可以把这种情况看成是相同数据集,这种情况属于分布式数据挖掘系统,不属于本文研究的范畴。   综上所述,本文探讨的是基于形式一的相容数据集中各个数据集所产生的关联规则合并问题,称为相容数据集间规则演绎。若方案可以实施,可将分布在不同区域的具有部分相同数据项且具有部分相同关联规则项的关联规则进行演绎,得到经典Apriori算法不能发现的潜在关联规则。   2 相容数据集间关联规则的演绎方法   从以上公式可以看出,等比例缩放不影响规则的支持度和置信度,所以定理1成立。   定理2 数据集D上关联规则A→B的置信度C与数据集D上的事务数L无关。   证明

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档