改进的关联规则挖掘算法研究.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进的关联规则挖掘算法研究.pdf

改进的关联规则挖掘算法研究术 陆金桂①,刘小览。,曹一家。 (①南京工业大学,②浙江大学,弼i∽∞@习u.edu.cn) 摘要本文选择了挖掘关联规则的经典算法Apfiori进行了研究,提出动态减小候选项集改 进思路和改进算法. 关键词 关联规则数据挖掘 l引言 近几年来数据库领域出现的数据挖掘技术引起了人们越来越多的关注【1】。数据挖掘是指 从大量数据中提取人们感兴趣模式的过程f1】。通过数据挖掘技术,人们可以理解、分析和利 用已经获得的大量数据。数据蕴涵的关联规则的挖掘是数据挖掘的重要内容。所谓关联规则, 是指数据库中数据项(例如属性、变量等)之间存在的直接和间接关系【2】。 自1994年R.A黟awal首先提出关联规则的挖掘算法以来,关联规则的挖掘方法得到了发 展【2.6】。本文选择了挖掘关联规则的经典算法Apfiofi进行了研究,提出了一个改进算法。论文 先简单介绍了用于关联规则挖掘的A州鲥算法,然后介绍了改进的关联规则挖掘算法,论文 最后给出了数值实验。 2Apriori算法简介 在R.Agawal等人提出的挖掘关联规则的Apriofi算法中,先对数据库进行多次扫描,第 每一个元素的支持数;最后在每一遍扫描结束时计算出k项集Lk,在某个k项集Lk为空时扫 描结束。Apfiofi算法的具体内容如下: 输入:数据库D和最小支持度Smin 输出:存在与数据库中的项集L l·itemsetS) Ll={la玛e For(k=2;Lk.1◇null;l(抖)( i {Ck=apriori-gen(Lk.i) Foralltransacfiomt∈D ‘本文受国家自然科学基金(项目编、教育部优秀青年教师资助计划、江苏省教育厅自然 科学基金资助 982 { Ct=subset(Ck,t); Forall candidatesC∈C。 {C.count++:) Lk={C∈Ck 1.C.count芝Smin} } ) Answer=u★LI 该函数返回所有k项频繁集的超集。该函数包括连接和修剪二个步骤。具体内容如下: 1)连接 InsertintoCk Select p【l】,p【2】,...,p[k-l】,q[k-1】 From q L々一mP厶一l Where p【l】_q【1】,p【2】_q【2】,...,p[k-2]2q[k-2],p[k-1]2q[k-1】 2)修剪 fofallitemsetsdo c∈Ck forall(k-1).subsetsofcdo if(se三々一1)then delete CfromCR 对Ck中的任一候选C,如果C中存在一个不属于Cbl的长度为k-l的子序列,那么就从 Ck中删除该候选集。 3改进的关联规则挖掘算法 (1)改进算法思路 有充分利用第k-1次数据库扫描的结果。这样在数据库扫描时使得候选k项集Ck中的元素的 成,因而Ck中的某一元素的支持数不会超过生成它的两个厶一l中的元素支持数小的那个元素 的支持数。依据这个事实,我们提出动态减小候选k项集Ck的改进思路。在改进算法中,通 过以下两种步骤来减少候选项集与数据库记录的匹配次数,从而提高了算法的效率。 · 将“已是项集且其支持数不会再增长的项集”从候选项集中引入大项集集合。 · 将“已经不可能成为大项集的项集”从候选项集中删除。

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档