- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《现代图书情报技术》版权所有,欢迎下载引用!
请注明引用地址:基于事务标识列表的关联规则挖掘算法[J],现代图书情报技术,2008(8):63-69.
总第168期 2008年 第8期
基于事务标识列表的关联规则挖掘算法
王 强1,2
1(中国科学院国家科学图书馆 北京 100190)
2(中国科学院研究生院 北京 100049)
【摘要】设计并采用Java语言实现基于事务数据库标识列表的频繁项集的产生算法———TidlistApriori。通过与采
用Hash-Tree的Apriori算法进行比较,表明TidlistApriori能够提高频繁项集的产生效率,可以成为主题关联挖掘
的有效算法工具。
【关键词】频繁项集 关联规则挖掘 数据挖掘 主题关联
【分类号】TP311 TP181
AlgorithmforMiningAssociationRuleBasedontheIdentifierLists
ofTransactions
1,2
WangQiang
1(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China)
2(GraduateUniversityoftheChineseAcademyofSciences,Beijing100049,China)
【Abstract】ThispaperdesignsandimplementsanalgorithmnamedTidlistAprioriforminingassociationrulebasedonthe
identifierlistsoftransactionsindatabaseusingJava.TheresultsofexperimentcomparingTidlistAprioriwithAprioribased
onHash-Treeindicatethatthisalgorithmcanimprovetheefficiencyoffindingfrequentitemsets,andTidlistApriorican
beusedasefficienttoolforminingtopicassociation.
【Keywords】Frequentitemsets Associationrulemining Datamining Topicassociation
1 概 述
主题词是以概念为基础从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组,在经过
严格规范标引的情况下(如Pubmed中用Mesh词的标引),主题词可以反映文献研究的主要内容,主题词间的关
联可以反映出不同领域之间的关联关系,进而研究各学科的发展过程、趋势以及各学科之间的关系。使用数据挖
掘中关联规则挖掘,可以找到两个或多个主题词之间的关联,同时确定关联的强度。
关联规则挖掘是数据挖掘的重要组成部分,主要功能是发现大量数据中项集之间感兴趣的关联或相互联系,其
[1]
主要步骤包括找出频繁项集,然后,由它们产生形如A B的强关联规则,其核心问题在于怎样找出频繁项集 。
本文在综合比较研究产生频繁项集的各种已有算法的基础上,针对这些算法需要多次扫描数据库而使其运
算效率不高的问题,设计并用Java语言实现了基于事务标识列表的频繁项集的产生算法———TidlistApriori,旨在
提高运算效率。实验证明该方法可以有效减少数据库扫描次数,节省运算时间,提高算法的运算效率,该算法可
收稿日期:2008-05-09
收修改稿日期:2008-06-12
XIANDAITUSHUQINGBAOJISHU 63
情报分析与研究
望运用于学科领域主题词间关系与关联强弱的挖掘等
原创力文档


文档评论(0)