基于事务标识列表的联系规则挖掘算法.pdfVIP

基于事务标识列表的联系规则挖掘算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《现代图书情报技术》版权所有,欢迎下载引用! 请注明引用地址:基于事务标识列表的关联规则挖掘算法[J],现代图书情报技术,2008(8):63-69. 总第168期 2008年 第8期 基于事务标识列表的关联规则挖掘算法 王 强1,2 1(中国科学院国家科学图书馆 北京 100190) 2(中国科学院研究生院 北京 100049) 【摘要】设计并采用Java语言实现基于事务数据库标识列表的频繁项集的产生算法———TidlistApriori。通过与采 用Hash-Tree的Apriori算法进行比较,表明TidlistApriori能够提高频繁项集的产生效率,可以成为主题关联挖掘 的有效算法工具。 【关键词】频繁项集 关联规则挖掘 数据挖掘 主题关联 【分类号】TP311 TP181 AlgorithmforMiningAssociationRuleBasedontheIdentifierLists ofTransactions 1,2 WangQiang 1(NationalScienceLibrary,ChineseAcademyofSciences,Beijing100190,China) 2(GraduateUniversityoftheChineseAcademyofSciences,Beijing100049,China) 【Abstract】ThispaperdesignsandimplementsanalgorithmnamedTidlistAprioriforminingassociationrulebasedonthe identifierlistsoftransactionsindatabaseusingJava.TheresultsofexperimentcomparingTidlistAprioriwithAprioribased onHash-Treeindicatethatthisalgorithmcanimprovetheefficiencyoffindingfrequentitemsets,andTidlistApriorican beusedasefficienttoolforminingtopicassociation. 【Keywords】Frequentitemsets Associationrulemining Datamining Topicassociation 1 概 述   主题词是以概念为基础从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组,在经过 严格规范标引的情况下(如Pubmed中用Mesh词的标引),主题词可以反映文献研究的主要内容,主题词间的关 联可以反映出不同领域之间的关联关系,进而研究各学科的发展过程、趋势以及各学科之间的关系。使用数据挖 掘中关联规则挖掘,可以找到两个或多个主题词之间的关联,同时确定关联的强度。   关联规则挖掘是数据挖掘的重要组成部分,主要功能是发现大量数据中项集之间感兴趣的关联或相互联系,其 [1] 主要步骤包括找出频繁项集,然后,由它们产生形如A B的强关联规则,其核心问题在于怎样找出频繁项集 。    本文在综合比较研究产生频繁项集的各种已有算法的基础上,针对这些算法需要多次扫描数据库而使其运 算效率不高的问题,设计并用Java语言实现了基于事务标识列表的频繁项集的产生算法———TidlistApriori,旨在 提高运算效率。实验证明该方法可以有效减少数据库扫描次数,节省运算时间,提高算法的运算效率,该算法可   收稿日期:2008-05-09   收修改稿日期:2008-06-12 XIANDAITUSHUQINGBAOJISHU    63 情报分析与研究 望运用于学科领域主题词间关系与关联强弱的挖掘等

文档评论(0)

精品教学资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档