- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则挖掘在DM研究热点演化分析中的应用.pdf
第 28卷 第 12期 情 报 杂 志 V0l1.28 No.12
2009年 12月 JOURNALOFINTELLIGENCE Dec. 2009
关联规则挖掘在DM研究热点演化分析中的应用
EvolutionAnalysisofDataM iningResearchHotspotsBasedonAssociationRuleM ining
刘 潇
暨南大学统计学系 广州 510632;华南理工大学工商管理学院 广州 510641
摘 要 数据挖掘是基于数据库、统计学、机器学习、人工智能等多学科交叉的新兴学科领域。为系统分析和评价
该学科过去和现在的研究热点及其 内在结构。以webofScience数据库收录的主题为 “datamining”的期刊论文为数
据源,对关键词进行规范和统计选出热点高频词,然后将期刊论文视为事务,高频词视为项集,采用关联规则分析方
法挖掘隐含在 1997--2004年、2005--2008年两个时期文献集中的关联词汇,定量描述知识主题之间的逻辑关联和
相关影响程度,并借助可视化工具对知识主题关联网络进行直观展示。 。
关键词 数据挖掘 关联规则挖掘 共词分析
中图分类号 TP319 G25 文献标识码 A 文章编号 1002—1965 2009 12—0143—05
数据挖掘DM DataMining 起源于数据库技术, 文献检索和知识库的建立提供依据。
最初称为基于数据库的知识发现 KDD 。同传统学科 本文以webofScience数据库收录的1997~2008
相比,数据挖掘的学科概念 1995年才在美国计算机年 年主题为 “datamining”的期刊论文为数据源,基于共
会ACM被正式提 出,但其在应用需求的推动下发展 词分析原理,首先对关键词进行规范化和词频统计,选
迅速 ,近十多年涌现出大量的研究和应用成果,现 已发 出1997~2004年、2005~2008年两个时段的热点高
展成为统计学、人工智能、机器学 习、数学 、计算机科 频词 ;然后分别将两个时段的期刊论文视为事务,高频
学、可视化技术等多学科交叉的新兴学科_1J。面对大 词视为项集 ,采用SPSSClementine的Apriori算法挖掘
量的、不断涌现的学术文献,研究者需要从学科发展演 隐含在文献集中主题词之间的关联关系,并运用规则
化的视角,借助科学计量学 的研究方法对该学科内众 支持度、规则置信度、规则提升度等统计指标定量描述
多主题领域之间的关联关系以及内在结构特征进行系 数据挖掘学科过去和现在的研究热点及热点领域之间
统分析和评价,以便把握学科研究热点和发展动 向。 的逻辑关联;最后借助可视化工具对关联关系和关联
其中共词关联分析是基于共词分析原理和关联规则挖 的强度进行了直观展示。
掘方法对学科文献进行分析评价的一种方法。
1 数据来源与分析方法
关联规则挖掘ARM AssociationRuleMining 是
数据挖掘中常用的方法,可以用来发现隐含在海量数 1.1 数据收集和预处理 采用 EndNote文献管理
据库中有趣的关联或相关联系。关联规则的典型应用 软件链接到国际权威学术数据库webofScience,检索
是购物篮分析MBA MarketBasketAnalysis ,即在交 主题词为 “datamining”、时间为 “1997~2008”年的期
易事务数据库中寻找被顾客频繁购买的商品集或项集 刊论文。检索获得 23050篇论文,按 1997~2004年、
itemset 。最先将关联规则挖掘引入基于文献的知
文档评论(0)