- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则算法研究摘? 要?Apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了Apriori算法的思想对已经提出的经典的关联规则更新算法FUP和IUA算法进行分析,指出其优缺点;最后对另外的改进算法,做一个简单的叙述。
??? 关键词? 数据;关联规则;AprioriKeywords:data mining;relation rule;Apriori algorithm
??? 关联规则反映了数据库中数据项目之间有趣的关联关系,而其中发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。关于频繁项目集的挖掘算法研究,人们对此进行了大量的工作,其中以R. Agrawal 等人提出的Apriori 、AprioriTid 等算法最具有影响力和代表性。而这些算法的提出都是在挖掘数据库和最小支持度不变的条件下进行的。但实际中,遇到的情况可能是:随着时间的推移,挖掘数据库的规模可能不断膨胀或需要删除一部分记录,或者需要对最小支持度进行调整从而逐步聚集到我们感兴趣的频繁项目集上。因而如何从数据发生变动后的数据库中高效地对已经推导出的关联规则进行更新,具有非常重要的应用价值,这就是所谓的增量式挖掘关联规则的问题。
关联规则?问题描述: 设I={i1,i2,...,im}是m个不同项目的集合,给定一个事务数据库D,其中D每一个事务T是I中一组项目的集合,即TI,T有一个惟一的标志符TID。如果对于I中的一个子集X,有XT,我们就说一个事务T包含X。一条关联规则(association rule)就是一个形如X =Y的蕴涵式,其中X,YT,而X∩Y=Φ。关联规则成立的条件是:它具有最小支持度s,即事务数据库D中至少有s%的事务包含XY;它具有最小可信度c,即在事务数据库D中包含X的事务中至少有c%同时也包含Y。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则,也就是产生强规则的问题。关联规则的挖掘问题可以分解为以下两个问题:
??? (1) 找出事务数据库中所有具有用户最小支持度的项目集。具有用户指定最小支持度的项目集称为频繁项目集,反之称为非频繁项目集。一个项目中所含项目的个数称为该项目的长度。
??? (2) 利用频繁项目集生成关联规则。对于每一个频繁项目集A,若BA,B≠Φ,且support(A)/support(B)minconf,则有关联规则B= (A-B)。目前大多数的研究主要集中在第一个问题上面。
2 ?Apriori核心算法
??? Agrawal等人于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori算法,其核心是基于两个阶段频繁项集思想的递推算法。算法的基本思想是首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小可信度。Apriori核心算法思想简要描述如下:该算法中有两个关键步骤连接步和剪枝步。
??? (1) 连接步:为找出Lk(频繁k一项集),通过Lk-1与自身连接,产生候选k-项集,该候选项集记作Ck;其中Lk-1的元素是可连接的。
??? (2) 剪枝步:Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁一项集都包含在Ck中。扫描数据库,确定Ck中每一个候选的计数,从而确定Lk(计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lk)。然而,Ck可能很大,这样所涉及的计算量就很大。为压缩Ck,使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)项集不在Lk中,则该候选项也不可能是频繁的,从而可以由Ck中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。
??? 这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。
3 ?关联规则增量更新
??? 关联规则反映了数据库中数据项目之间有趣的关联关系,而其中发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。关于频繁项目集的挖掘算法研究,人们对此进行了大量的工作,其中以R. Agrawal 等人提出的Apriori、AprioriTid 等算法最具有影响力和代表性。而这些算法的提出都是在挖掘数据库和最小支持度不变的条件下进行的。实际中,数据库的规模随着时间,可能不断膨胀或需要删除一部分记录,或者需要对最小支持度进行调整从而逐步聚集到我们感兴趣的频繁项目集上。因而如何高效地从更新后的数据库中对已经推导出的关联规则
您可能关注的文档
- 树突状细胞在肿瘤免疫治疗中的应用及前景 课程论文.doc
- 人本主义与精神分析有什么异同.doc
- 广州市专业技术人员诚信及职业道德建设(第2章答案).doc
- 颅脑外伤临床基本问题.doc
- CT增强扫描的观察和护理.doc
- 大城市社会极化空间响应研究.doc
- 广告及营销战略的关系——效果网分享.docx
- 性格解析及人际交往.doc
- 第二章 东师现代教育技术16春在线作业3.doc
- 第四章 翻转课堂测验题目答案.docx
- 骨科医师晋升副主任医师高职称病例分析专题报告(关节镜治疗肩关节后脱位合并肱骨小结节骨折).docx
- 神经外科医师晋升副主任医师高职称病例分析专题报告(右侧前颅窝底颅内外沟通性脑膜瘤).docx
- 医院辞退通知书.docx
- 妇产科医师晋升副主任医师高职称病例分析专题报告(经脐单孔腹腔镜治疗剖宫产瘢痕部位妊娠病).docx
- 皮肤科医师晋升副主任医师高职称病例分析专题报告(医源性砷中毒致砷角化病、多发鳞状细胞癌).docx
- 骨科医师晋升副主任医师高职称病例分析专题报告(膝关节假体治疗夏科氏关节病).docx
- 部编版2023年小学一年级语文下册第一单元综合素质评价.docx
- 2025年(中级)消防设施操作员职业技能鉴定考试真题卷(题后附答案和解析).pdf
- 2025年高级消防设施操作员职业技能鉴定考试真题(后附专业解析).pdf
- 2025年(初级)中式烹调师职业技能鉴定理论真题库(题后附权威解析).pdf
文档评论(0)