- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则Apriori算法的改进
陈则芝 陈 鹏
(巢湖职业技术学院,安徽 巢湖 238000;南开大学 经济学院,天津300071)
摘 要:关联规则挖掘研究是数据挖掘研究的一项重要的内容。Apriori算法是挖掘关联规则的经典算法,但存在一些不足之处。本文在Apriori算法基础上,提出了基于链表数据结构的关联规则改进算法。由于该算法只需对交易数据库进行一次检索,故能大量减少所需的I/O 次数,提高了系统的性能。
关键词:数据挖掘;关联规则;树;频繁项集;
Improvement of Apriori Algorithm for Association Rules
Chen Zezhi, Chen Peng
(Chaohu Vocational and Technical College, Anhui Chaohu,238000
School of Economy, Nankai University ,Tianjin 300071)
Abstract:Mining association rule is one of the most important topics of data mining. The Apriori algorithm is a classical algorithm in mining association rules. There exist some shortcomings in the algorithm. Based on Apriori algorithmthe article realizes the improved algorithm with linked list data structure. This improved algorithm scans the database only once,so it reduces the times of input and output,thus the mining speed increases.
Key words:data mining;association rule;linked list;frequent item sets;
作者简介:陈则芝(1971–),女,安徽宣州人,硕士,讲师,研究方向:数据库及其应用
陈 鹏(1971-),男,安徽巢湖人,南开大学经济cmczz@163.com
关联规则Apriori算法的改进
随着科学技术的飞速发展,数据资源日益庞大,然而人们却处在“数据丰富,但信息贫乏”的严峻形势,于是寻找新的数据分析方法和工具,以便从海量数据中提取有用知识已成为世界范围内的热门研究课题。数据库中的数据挖掘正是在这样一种背景下产生并发展起来的。数据挖掘(Data Mining)是指从数据库中提取潜在的有用的知识,是当前人工智能、数据加工和信息决策研究的新领域。其中关联规则挖掘研究是数据挖掘研究的一项重要内容,其目的是发现大规模数据集中项集之间有趣的关联关系或模式。
关联规则挖掘问题首先是由R.Agrawal等于1993年提出,而后又进一步提出了著名的Apriori算法,该算法的主要思想是首先寻找给定数据集中的频繁项集,然后通过频繁项集生成强关联规则。寻找频繁项集的核心思想是用前一次扫描数据库的结果产生本次扫描的候选项集,从而提高搜索的效率。但当数据库中事务较多,项目集较大时,扫描计算量大,耗时多。针对这种情况,本文提出了基于链表的数据结构的改进算法。由于该算法只需对交易数据库进行一次检索,故能大大减少所需的I/O 次数,从而提高了效率。
1、关联规则的定义及性质
设是一组项目集。设任务相关的数据为事务集,其中每个事务是项集,使得。对每一个事务有唯一的标识,如事务号,记作。
定义1 如果项集中有个项目,称的长度或大小为,此时项集称为-项集。
定义2 ,,,称为关联规则,称为关联规则的前件,称为关联规则的后件,称为关联操作。
定义3 如果事务数据库D中,至少有s%的事务包含了,则称 具有支持度s%。
定义4 如果事务数据库中包含的事务中至少有c%同时也包含,则称的置信度为c% 。
定义5 如果一个-项集,它的支持度minsup,则称该-项集为频繁-项集,所有频繁-项集的集合记作。
关联规则挖掘问题可分为2个子问题来实现:(1)求频繁项目集,即支持度不小于最小支持度的项目集;(2)利用频繁项目集生成所需要的关联规则,即置信度不低于最小置信度的规则。
2、Apriori算法
Apriori使用一种称为逐层搜索的迭代方法,-项集用于探索-项集。首先,找到频繁1-项集。该集合记作,用于找频繁2-项集的集合 ,而 用于找 ,如此下去,直到不能找到频繁k-项集。该算法不足之处是:找每一个频繁项集需
文档评论(0)