- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则挖掘的Apriori算法改进综述
1引言
数据挖掘是一种半自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 取出隐含在其中潜在有用的信息和知识的过程。数据挖掘从数据屮提取人们感兴趣的可用信 息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式。
数据挖掘,又称数据库中的知识发现(Knowledge Discovery in Database, KDD),指的是 从大型数据库的数据仓库屮提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有 用信息,换言之,数据挖掘是一个利用各种分析工具在海量数据中,发现模型和数据间关系 的过程,这些模型和关系可以用来作出预测。对于数据挖掘技术的研究已引起了国际人工智 能和数据库等领域专家与学者的广泛关注,这其川在事务数据库川挖掘关联规则是数据挖掘 领域中的一个非常重要的研究课题。关联规则是美国IBM Almaden research center的Rabesh Agrawal等人于1993年首先提出的,最近几年在数据挖掘研究领域对关联规则挖掘的研究 开展得比较积极和深入⑴。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关关 系。随着大量数据不停被地收集和存储,许多业界人士对于从数据库屮挖掘关联规则越来越 感兴趣。
Apriori 算法
2.1关联规则挖掘问题的形式化描述
对于经常使用的数据,同一文件的不同版本Z间的内容往往会有重复,因此数据冗余 比较多,如果釆用增量式压缩就可以大大节省磁盘空间。但是这样的数据是压缩的,一旦用 户需要查询/恢复数据就需要解压过程,因此这会使系统性能降低。设I={il, i2,…,im} 是由nv个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中 一组项目的集合,即TUI, T有一个唯一的标识符TID。若项集XUI且XU T,则事务 T包含项集X。一条相联规则就是形如X3Y的蕴涵式,其中XUI, YUI, xAY=①。相联 规则X今Y成立的条件是:
⑴它具有支持度s,即事务数据库D中至少有s%的事务包含XY U ;
(2)它具有置信度c,即在事务数据库D中包含X的事务至少有c%同时也包含Y。
关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度minsup 和最小置信度minconf的关联规则。
2.2 Apriori算法简介
1994 年,Rakesh AgrawalRama 和 Krishnan Skrikant 首先提出了 Apriori 算法⑵,它是 一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法是一种最有影响的挖掘布 尔关联规则频繁项集的算法,其核心是使用候选项集找频繁项集。Apriori算法使用一种称 作逐层搜索的迭代方法k■项集用于搜索以(k+l)?项集。首先,找出频繁1 ■项集的集合,该集 合记作LI, L1用于找频繁2■项集的集合L2, L2从用于找L3.如此下去,直到不能找到 频繁项集。
Apriori算法的改进
3.1 DDApriori 算法⑶
从Apriori算法可以看115,对每一 Ci均对数据库扫描一次,而这吋有些事务已经对频繁 项集的生成不产生作用,减少数据库D内不起作用的事务対于算法來说是很有必要的,本 算法的基本思想就基于此。该算法是在每次计算Ci支持记数的过程中,给不包含Ci中的 任何项集的事务打上删除标记,在以后的扫描计数中不加考虑。其实在Ci扫描过数据库后, 与Ci中某一项集相同的事务t,如果其支持记数小于Vmin sup,这一事务对后面的频繁项 集将不产生作用,因此它也可以从数据库中删去。本算法通过增加这一事实,得出的算法比 [3]屮算法更有效。随着i值的增大,删除的事务也不断增大,因而有效降低了候选项集的 计数速度,提高了整个算法的效率。
算法:DDApri ori使用根据候选生成的逐行迭代找出频繁项集
输入:事务数据库D;最小支持记数阈值Vminsup
输出:D中的频繁项集L
方法:
10) Ll= find frequent 1- itemsets( D); /
20) for( i= 2; Li- 1 H 0 ; i + + ) {
30) Ck= aproiri _gen( Li- 1, Vmin sup); 〃产生新的候选项集,此函数同于 Apriori 算法中的函数
for each transaction t W D{ 〃扫描 D 并计数
if t. delet e= 0 then do be gin
Ct= subsct( Ci, t); 〃获取t的子集作为候选
if Ct= 0 then
t. delet e= 1 //打上删除标志
els e 〃对每一个Ct进行计数并记录内容
if Ct= c then t.
您可能关注的文档
最近下载
- 人教版(2024)一年级数学上册《10的认识》(课件).pptx VIP
- 2024全国职业院校技能大赛GZ106研学旅行赛项规程+赛题 (3).docx VIP
- 八年级英语上册各单元练习题及专题语法习题.doc VIP
- FANUC工业机器人集成359.pptx VIP
- 高温气冷堆核电站三壳组对专用工装及安装方法.pdf VIP
- 【医学】呼吸内科诊疗常规 共(29页).doc VIP
- 公司财务原理 第十一版 习题答案 - Principles of Corporate Finance ,11th edition ,solution.pdf VIP
- 电气控制与S7-1200 PLC应用技术教程郑海春习题答案.docx VIP
- 《网络安全》安全教育PPT课件.pptx VIP
- 《结核病患者外周血淋巴细胞亚群检测及临床应用专家共识》(2020)要点.docx VIP
文档评论(0)