- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 0 2 福建电脑2 0 0 7年第7期基于关联规则的A p r i o r i 算法实现及改进温冠华( 同济大学电子与信息工程学院上海2 0 0 0 9 2)
【摘要】:本文首先对数据挖掘的定义及其发展现状作了简单的介绍,然后从背景、内容、效率、复杂度等方面对基于关联规则的A p 6 o f i算法做了深入介绍,最后分析了这个算法的瓶颈问题,并就此问题提出了改进方案。【关键词】:数据挖掘;关联规则;A p f o f i算法;算法效率;算法改进1 .数据挖掘数据挖掘( D a t a Mi n i n g ) ,就是从海量的数据中.抽取出潜在的、有价值的知识( 模型或规则) 的高级处理过程。它和数据库知识发现( Kn o w l e d g e Di s c o v e r y i n Da t a b a s e ,KDD) 是近年来随着数据库和人工智能技术的发展而出现的全新信息技术.同时也是计算机科学与技术.尤其是计算机网络的发展和普遍使用所提出的、迫切需要解决的重要课题。目前,它是国际上数据库和信息决策领域的最前沿的研究方向之一.已经在学术界和工商界引起广泛关注。按发现知识的种类分类,数据挖掘分为总结规则挖掘、特征规则挖掘、关联( As s o c i a t i o n) 规则挖掘、分类挖掘、聚类挖掘、趋势分析、偏差分析等。其中关联规则挖掘、分类挖掘和聚类挖掘研究最深人、应用最广泛。2 .关于关联规则的讨论本论文重点讨论Ap no f i算法是基于关联规则的所以我们将对关联规则做一些介绍,首先来了解几个概念。( 1 1项集:就是项目的集合, a l ,a 2 ,a 3 ;f 2 1支持度:一个项目的支持度就是数据库中含有这个项集的所有项目的事务所占的比例例如考虑项集{ 牛奶,面包} ,如果观察到购买中有7 5 %的支持度.那我们就可能推断出牛奶和面包经常被一起购买。若考虑{ 牛奶,饮料} ,支持度只有2 5 %,那么牛奶和饮料就不是经常一起被购买的。( 3 1频繁项集:如果用户设定一个最小支持度为mi n s u p,那么对于那些支持度大于r ai n s u p的项集.这样的项集被称为频繁项集。有了上述几个概念之后.我们可以对关联规则作一些详细的描述。所谓关联规则,就是一个形如x —v的逻辑蕴涵式,其中x∈T ,v∈T且xnv :0。当事务数据库中有S %的事务包含xUv ,则关联规则的支持度可以被定义为:S u p p o ~ ( x 一÷ y) = S u p p o ~ ( x U Y) = S ;若事务数据库D中包含X 的事务中有C %同时包含Y.则关联在规则x 一÷ v的可信度C o n f i d e n e e可定义为:C o n f i d e n e e ( x U y ) /S u p p o r t ( x ) 。那上面的例子为例,{ 面包} 一{ 牛奶} ,即如果一个事务中含有面包,则它很可能还含有牛奶,一般说来,一个关键规则具有形式,x —Y,其中X和Y都是项集,对于这个规则的解释就是:如果一个事务中购买了X 中的每一种商品.则Y中的商品也很可能被同时购买3 .Ap f io f i算法A g r a w a l 和S r i k a n t 首先于1 9 9 4年提出了Ap n ’o r i 演算法.引起相当广泛的讨论.之后许多算法的提出都是根据此方法加以改进.可谓最具代表性的方法之一。A p f i o f i算法最主要的概念.就是从候选项目集合中借着扫描一次资料库.找出大于或等于使用者所定义的最小支持限度
您可能关注的文档
最近下载
- 庭院设计课件 第五章 功能布局与平面设计.pptx VIP
- 2021年Fall AMC 10B真题含答案.pdf VIP
- 2025年辽宁省地矿集团面向校园招聘80人考试备考试题【含答案解析】.pdf VIP
- 九一八事变(课件)小学生主题班会通用版(共22张PPT).pptx VIP
- 屋顶分布式光伏发电施工组织设计.docx VIP
- 小学三年级班主任工作计划安排.doc VIP
- 广州某1200吨超低温金枪鱼冷库制冷系统设计.docx VIP
- 2025年美丽中国全国国家版图知识竞赛题库(附答案).docx VIP
- 中医辩证施护课件.ppt VIP
- Mysql数据库及应用 广东开放大学考试题库答案.doc VIP
文档评论(0)