- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2010年 3月 Mal.2010
第2O卷 第2期 榆 林 学 院 学报
JOURNALOFYUUN UN1VERSITY V01.20N0.2
基于关联规则的数据挖掘算法研究
李瑞华L,鱼 斌
(1.西安电子科技大学计算机学院,陕西 西安710071;2.榆林学院信息工程学院,陕西榆林719000)
摘 要:数据挖掘中关联规则算法用途广泛,通过研究关联规则算法,对各关联算法进行分析、对比总结
出各关联规则的适用领域,并对经典的关联规则算法进行了举例与性能分析。
关键词:数据挖掘;关联规则;Apriori算法
中图分类号:TP274 文献标识码 :A 文章编号:1008—3871(2010)02—0062-03
关联规则挖掘 (AssociationRulesMining)是数 brid算法,J.s.Park等人的DHP算法等。Apriori
据挖掘领域研究的一个重要课题。Agrawal等人首 算法是这类算法的典型代表,该算法通过多次扫描
先提出了从顾客交易数据库中发现用户购买模式的 数据库来计算项集的支持度以发现所有的频繁项
相关性问题,并提出了挖掘频繁项 目集的Apfiori算 集;AprioriTid算法在 A 0ri算法的基础上对数据
法,此后诸多的研究人员对关联规则挖掘问题进行 库进行修剪,以减少数据库扫描的时间,但对数据库
了大量的研究。该规则对研究顾客的购买行为提供 的剪修需要额外的计算和 I/O操作;DHP算法采用
了极有价值的信息,对改进商业活动的决策有重要 哈希技术对数据库和候选项 目集进行修剪,特别是
意义。本文分析并介绍了几种常用的关联规则算 对候选2一项 目集的修剪特别有效;AprioriHybrid算
法,主要研究了经典的Apriori算法并对其进行了实 法是Apfiori算法和ApriofiTid算法的融合,该算法
例分析。 开始采用Apriori算法,然后在每次扫描完数据库之
1 关联规则挖掘算法研究 后计算修剪后数据库的大小,若修剪后的数据库可
自从提出关联规则挖掘的概念之后,人们对它 在内存中进行处理,则切换至 AprioriTid算法直到
的研究从来没有停止过,不但在理论上对它进行了 找出所有的频繁项 目集。
卓有成效的分析和研究,而且在实践上也提出了不 1.3深度优先算法 此类算法最著名的是J.Han等
少有效的算法,为关联规则挖掘的理论和应用奠定 人提出的FP—growth算法。FP—growth算法无须
了基础。 生成候选项 目集,显著地缩小了搜索空间,有效地避
1.1搜索算法 搜索算法是在读人数据库每条事务 免了产生 “知识的组合爆炸”,挖掘效率明显提高。
的同时,对该事务中包含的所有项 目集进行处理,因 1.4增量式更新算法 此类算法包括 D.W.Clieung
此它需要计算数据库中所有项 日集的支持数。典型 等人提出的FUP和 FUP2算法,冯玉才等人的IUA
算法AIS算法、SETM算法。搜索算法只需对数据 和PIUA算法等。增量式更新算法主要用于解决两
库扫描一次就可以找出所有的频繁项 日集,对每一 类关联规则的增量式更新问题:一是给定最小支持
条包含N个项 目的事务就将产生2一1个项 目集。 度和最小置信度阈值,当一个新的事务数据库 db添
当数据库中包含的项 目数很大时,所需计算和存储
原创力文档


文档评论(0)