- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种挖掘大型数据库的关联规则新算法.pdf
一种挖掘大型数据库的关联规则新算法幸
李志云1 周国祥2
l山东信息职业技术学院,山东潍坊26106l
2合肥工业大学计算机与信息学院,安徽合肥230009
摘 要:关联规则挖掘算法FP.Growth在挖掘大型数据库时占用内存大和运行速度慢或根
本无法构造基于内存的FP.树。针对这些问题,提出一种适合于挖掘较大型数据库的新的关
联规则挖掘算法DFP.Growth,新算法将数据库分解,然后对分解得到的各个数据库子集用
FP—Gro、vth算法进行约束频繁项集挖掘,以满足大型数据库挖掘的需求。
关键词:数据挖掘关联规则FP.Growth算法新算法
l引 言
FP.Gfo叭h算法是用于从事务数据库中挖掘布尔型关联规则的频繁模式。它的挖掘过程可以简单地划
分成三个基本步骤:首先是扫描事务数据库,根据给出的min.sup(最小支持度)建立L表;然后第二次扫描
事务数据库,依据L表,构建FP.仃ee;最后对构建的FP.仃ee进行挖掘,找出所有的频繁模式。有了频繁
模式就可以根据行业背景方便地建立所需的关联规则。虽然FP.Growth算法的关联规则挖掘效率比经典的
Apri嘶等算法效率都高,但是,该算法由于扫描实际的事务数据库时开销很大,时间和空间要求较高。而
且数据库很大时,可能由于无法构造基于内存的FP树,该算法将不能有效地工作【4】。若能在此基础上将大
型数据库进行分解,分别对分解后的数据库进行挖掘,则可以有效地挖掘大型数据库,进一步有效地提高
采用新颖的分解方法分解数据库,然后对分解后得到的各个数据库子集进行约束频繁项挖掘来挖掘关联规
则的新算法【甜。
2新算法概述
保存事务信息的数据链表组,然后用消除头项、迭加后继项的方式将数据链表组中的首数据链表分解,组
合成新的数据链表组,并继续分解其首数据链表。如此反复下去,逐步地组合成频繁1一项集的项总数个数
据库子集。接下来分别对各项数据库子集使用FP.Gr0叭h算法进行约束频繁项挖掘,得到含有各个频繁1.
项集的项的频繁项集,最后将这些频繁项集合并起来便得到整个数据库的所有频繁项集。
3新算法
3.1算法描述
输入:事务数据库D;最小支持度阀值min.support。
’基金资助:国家自然科学基金重点项目(No.
作者简介:李志云(1969.)女,山东潍坊人,硕士,主要研究方向:计算机软件与理论;
周国祥,男,安徽合肥人,合肥工业大学教授,主要研究方向:计算机软件与理论.
输出:D中的频繁项集。
算法:
(1)扫描数据库D,找出候选l一项集的集合,并得到它们的支持度计数(频繁性)。然后,按照支持度计
数递减排列候选1.项集的各项,得到候选1.项集的集合F。将F中支持度小于最小支持度的项删除,得到
频繁1.项集的集合L。设L={IM,IM.1,,...13,12,11),其中IM的支持度最高,Il的支持度最小。
(2)再次扫描数据库D,将支持度小于最小支持度的项从各事务中删除,然后按照各项的支持度计数
递增地将各事务中的项进行重新排列,得到数据库为D7。
(3)扫描数据库D
7中所有事务信息的数据链表组。
相应的数据链表Vi中。V={Vl,V2,V3…,V。}是一个保存着D
法对其进行约束频繁项挖掘:
对于L中的每个项Ii(i_1….,m.1,m)
的约束频繁项挖掘,其挖掘过程如下:
①扫描数据库D”,并按支持度计数递减地将D”的事务重新进行排列。
②利用D”构造FP一树,并创建项头表HT。注意,在这里构造项头表HT时。该HT中各项的次序为
L的排列次序。因此,项头表HT中的最后一项所标示就是项Ii的支持度计数及其节点链信息。
③利用项头表HT中的最后一项所示的信息,构造该项的条件模式基,然后构造其条件FP.树,就能
在该条件FP.树上挖掘出包含该项的频繁项集C“,完成在数据库子集D”上的约束频繁项挖掘。
第二步:将Vi中的头元素删除,然后根据其后继元素的不同,将去掉头元素的事务迭加到其它相应的
数据链表中。
(5)当L中所有项的约束频繁项集CLi被依次挖掘出来后
您可能关注的文档
最近下载
- 档案整理及数字化投标方案(517页).doc VIP
- 2025解读新《监察法实施条例》核心要点与条文速览PPT学习课件(含文字稿).pptx VIP
- 铁路信号电缆配线作业.ppt VIP
- 2025江苏邳州农村商业银行招聘10人笔试历年典型考题及考点剖析附带答案详解.docx
- 采砂船水上船舶运输安全应急预案 .docx VIP
- 2025年自贡市中考英语试卷(含答案解析).docx
- 2024年北京昌平四年级(下)期末英语(含答案).pdf
- 七年级下册数学期末试卷.pdf VIP
- SH_T 3043-2014石油化工设备管道钢结构表面色和标志规定.pdf VIP
- 新人教版数学四年级上册课本练习题《练习一》可编辑可打印.pdf VIP
文档评论(0)