- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进Apriori算法
数据挖掘 Apriori算法的改进
毛纯杰
(淮海工学院计算机系 连云港 222000)
摘要:关联规则是数据挖掘中重要的研究课题。对关联规则挖掘算法 Apriori算法的关键思想以及性能进行了研究,指出该算法的某些不足,并且提出了一种产生候选项集的新算法。该算法提高了原算法的效率。
关键词:数据挖掘 关联规则 Apriori算法
Data mining Apriori algorithm improvement
Maochunjie
(Department of Computer Science, Huaihai Institute of Technology Lianyungang 222000)
Abstract In data mining of association rules is an important research topic. Apriori of algorithm for mining association rules algorithm of key idea and performance of the algorithm, and points out some shortcomings, and put forward a kind of candidate itemsets produced the new algorithm. The algorithm enhances the efficiency of the original algorithm.
Keywords data mining;association rules;Apriori algorithm
1引言
关联规则是 Agrawal等人…提出的数据挖掘领域中的一个重要课题。关联规则揭示数据间的相互关系,关联规则挖掘试图从一组给定的数据项以及事务数据库(每个事务是一个数据项的集合)中,筛选出数据项集在事务数据库中出现的频度关系。关联规则挖掘可以发现大量数据中数据项集之间有价值的关联或相关联系。
2 关联规则的描述
关联规则挖掘问题一般性可描述如下:
设 ,I={i1,,i2,…,im}为 m个不同项的集合,事务T为I的子集,不同事务的集合构成数据库D,关联规则的形式为XY,其中 XI,YI,并且 XY=?,X称作规则的前提,y称为结果。一般把一些项目的集合称作 itermet。在itemset中的数量叫做 itemset的长度,每一个itermset都是一个统计的度量称为“支持度”。对于XI,X的支持度表示从D中任取一事务包含的概率,定义为 support( X)=P(A)。规则的支持度定义为support( XY)=P(XY)。一个规则也有衡量的另一标准称为“置信度”,定义为 conifdence(XY)=P(BA)。由此可以看出,对已知事务数据库D,关联规则提取问题就是产生置信度与支持度分别大于用户定义最小值的所有关联规则。该问题可分两步来解:(I)产生所有支持度大于最小支持度 min—sup的项集 ,这些项集称为频繁项集 ;(2)对于每个频繁项集,产生所有大于最小置信度的规则。由于第二步相对较容易,因此 目前的研究重点在第一步,即找出频繁项集。
3 对于Apriori算法的改进
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法的基本思想是:对事务数据库进行多次扫描,利用“在给定 的事务数据库 D 中任意频繁项集 的子集都是频繁项集 ;任意弱项集的超集都是弱项集”这一原理对事务数据库进行多次扫描。
Apriori算法使用一种称作逐层搜索的迭代方法 ,i-项集用于搜索(i+1)-项集。首先 ,找出频繁一项集集合 。该集合记为 L1,L1 用于寻找频繁 2-项集的集合L2, L2用于寻找 L3,如此下去 ,直到不能找到频繁 k一项集Lk,找出每个Li需要一次数据库扫描。
3.1Apriori算法的缺陷
根据对 Apriori算法的分析,关联规则挖掘可以比较有效地产生关联规则,但是也存算法效率不高的严重缺陷。
主要原因:数据库扫描的次数过多,寻找每个k一频繁项集( k=1,2,…,k)都需要扫描数据库一次,共需要扫描 k次。因此当数据库或者k正太大时,算法的耗时将太大甚至无法完成。
3.2运用矩阵思想进行改进
本算法的基本思想为,对数据库给出一个矩阵表示。具体方法为:对每一成员按一序列排列 ,事务集也按一序列进行排列。成员分别表示行向量,事务表示列向量,若第 i个成员在第 j个事务中,则矩阵的第 i行,第 j列的值为 1,否则为0,称其为数据库的布尔矩阵。
以下是个求频繁项集的例子(最小支持计数为2):
您可能关注的文档
最近下载
- 门内饰板总成设计指南[整汇编.pdf
- 党支部书记2024-2025年组织生活会个人对照检查发言材料.docx VIP
- 国内外压裂改造技术发展动态.pptx VIP
- 柔性光伏支架结构设计规程.docx VIP
- 安徽省“江南十校”2023-2024学年高三下学期3月联考试题 政治 含解析.docx
- 轻工业企业数字化供应链管理通则编制说明.docx VIP
- 安徽省皖北县中联盟2023-2024学年高一下学期3月月考生物试题含答案.pdf VIP
- 2024年陕西省(初三学业水平考试)中考英语真题(A卷)试卷含详解.docx
- 自主移动机器人教学课件第4章-导航规划-1-概述及路径规划.pptx
- (高清版)B 4962-2008 氢气使用安全技术规程.pdf VIP
文档评论(0)