关联规则挖掘的Apriori算法改进综述.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则挖掘的Apriori算法改进综述 1引言 数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 取出隐含在其中潜在有用的信息和知识的过程。数据挖掘从数据屮提取人们感兴趣的可用信 息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式。 数据挖掘,又称数据库中的知识发现(Knowledge Discovery in Database, KDD),指的是 从大型数据库的数据仓库屮提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有 用信息,换言之,数据挖掘是一个利用各种分析工具在海量数据中,发现模型和数据间关系 的过程,这些模型和关系可以用来作出预测。对于数据挖掘技术的研究已引起了国际人工智 能和数据库等领域专家与学者的广泛关注,这其川在事务数据库川挖掘关联规则是数据挖掘 领域中的一个非常重要的研究课题。关联规则是美国IBM Almaden research center的Rabesh Agrawal等人于1993年首先提出的,最近几年在数据挖掘研究领域对关联规则挖掘的研究 开展得比较积极和深入⑴。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关关 系。随着大量数据不停被地收集和存储,许多业界人士对于从数据库屮挖掘关联规则越来越 感兴趣。 Apriori 算法 2.1关联规则挖掘问题的形式化描述 对于经常使用的数据,同一文件的不同版本Z间的内容往往会有重复,因此数据冗余 比较多,如果釆用增量式压缩就可以大大节省磁盘空间。但是这样的数据是压缩的,一旦用 户需要查询/恢复数据就需要解压过程,因此这会使系统性能降低。设I={il, i2,…,im} 是由nv个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中 一组项目的集合,即TUI, T有一个唯一的标识符TID。若项集XUI且XU T,则事务 T包含项集X。一条相联规则就是形如X3Y的蕴涵式,其中XUI, YUI, xAY=①。相联 规则X今Y成立的条件是: ⑴它具有支持度s,即事务数据库D中至少有s%的事务包含XY U ; (2)它具有置信度c,即在事务数据库D中包含X的事务至少有c%同时也包含Y。 关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度minsup 和最小置信度minconf的关联规则。 2.2 Apriori算法简介 1994 年,Rakesh AgrawalRama 和 Krishnan Skrikant 首先提出了 Apriori 算法⑵,它是 一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法是一种最有影响的挖掘布 尔关联规则频繁项集的算法,其核心是使用候选项集找频繁项集。Apriori算法使用一种称 作逐层搜索的迭代方法k■项集用于搜索以(k+l)?项集。首先,找出频繁1 ■项集的集合,该集 合记作LI, L1用于找频繁2■项集的集合L2, L2从用于找L3.如此下去,直到不能找到 频繁项集。 Apriori算法的改进 3.1 DDApriori 算法⑶ 从Apriori算法可以看115,对每一 Ci均对数据库扫描一次,而这吋有些事务已经对频繁 项集的生成不产生作用,减少数据库D内不起作用的事务対于算法來说是很有必要的,本 算法的基本思想就基于此。该算法是在每次计算Ci支持记数的过程中,给不包含Ci中的 任何项集的事务打上删除标记,在以后的扫描计数中不加考虑。其实在Ci扫描过数据库后, 与Ci中某一项集相同的事务t,如果其支持记数小于Vmin sup,这一事务对后面的频繁项 集将不产生作用,因此它也可以从数据库中删去。本算法通过增加这一事实,得出的算法比 [3]屮算法更有效。随着i值的增大,删除的事务也不断增大,因而有效降低了候选项集的 计数速度,提高了整个算法的效率。 算法:DDApri ori使用根据候选生成的逐行迭代找出频繁项集 输入:事务数据库D;最小支持记数阈值Vminsup 输出:D中的频繁项集L 方法: 10) Ll= find frequent 1- itemsets( D); / 20) for( i= 2; Li- 1 H 0 ; i + + ) { 30) Ck= aproiri _gen( Li- 1, Vmin sup); 〃产生新的候选项集,此函数同于 Apriori 算法中的函数 for each transaction t W D{ 〃扫描 D 并计数 if t. delet e= 0 then do be gin Ct= subsct( Ci, t); 〃获取t的子集作为候选 if Ct= 0 then t. delet e= 1 //打上删除标志 els e 〃对每一个Ct进行计数并记录内容 if Ct= c then t.

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档