- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
78.生物医学数据挖掘与知识发现热点的分析
中国医科大学信息系(110001)张 薇 崔 雷
1前言
数据挖掘是知识发现的一个过程。所谓数据挖掘是从大量的数据中,抽取出潜在的、有
价值的知识(模型或规则)的过程,有分类、评价、预测、相关性分组或关联规则的提取、
聚类、描述和可视化等功能。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的
简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域
的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的
学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。医学数据
挖掘作为数据挖掘的一个分支,也呈现了蓬勃发展的态势。在医学文献检索数据库 PubMed
中,从1998年到2008年,相关的文献数量从23篇逐年增加到2272篇。中文文献表明,生
物医学领域相关的数据挖掘已经成为医学信息专业的新的热点,作为医学信息专业人员应当
掌握这方面的研究动态。
基于此,我们应用聚类分析的方法,对PubMed数据库中关于数据挖掘与知识发现的相
关论文进行调查分析,总结出当前数据挖掘与知识发现研究的热点,并对之加以评价,以供
同道参考。
2材料与方法
本研究采取的样本来自美国国立医学图书馆编撰的PubMed数据库。PubMed数据库是目
前国际上检索医学文献最权威的数据库,具有覆盖面广、报道迅速、使用方便、侧重临床等
特点。在PubMed检索框中输入检索式:“data mining” OR“text mining” OR“knowledge
discovery” OR“KDD”,共检索到相关文献2272篇。
对检索到的全部相关文献的主要主题词,运用自编的文献计量学统计分析软件统计它们
出现的频次,将这些主题词按照它们的出现频次由高到低排序,根据这些主题词累积频次的
变化曲线选定截取高频主题词的阈值。本文将累积频次达到31.84%的前31个主题词作为表
现当前生物医学数据挖掘与知识发现研究热点的标志(见表 1)。
由于这些主题词是数据挖掘与知识发现相关论文中出现频率最高的词,故它们代表了当
前数据挖掘与知识发现的研究热点。但是,仅仅按出现频次对这些主题词进行线性排列,还
不能全面反映它们之间的关系。为此,我们对这些高频主题词进行进一步处理,两两统计它
们在同一篇论文中出现的次数。如果两个主题词在众多的文章当中同时出现的频率高,说明
它们之间的关系密切,这样形成了一个31×31的共词矩阵,再通过进一步计算生成相似矩
阵。以此为基础用SPSS软件对这些词进行聚类分析(采用系统聚类,相似度用Ochiai系数
表示,类间相似度测量采用组间平均距离法),聚类分析的结果可以反映出这些词之间的亲
疏关系。然后,将这些主题词重新组合起来,分析其间的语义关系,再结合用相应主题词从
PubMed数据库中检索出的热点文献内容,即能分析出这些词所代表的学科和主题结构,从
而获得医学数据挖掘与知识发现研究活动的热点。
3结果
表 1生物医学数据挖掘与知识发现高频主题词
位次 主题词 中文译名 频次
张薇(1983-),研究生。
Information Storage and
1 Retrieval/methods* 信息存储和检索/方法 241
2 Algorithms* 算法 210
3 Artificial Intelligence*人工智能 162
4 Computational Biology/methods*计算生物学/方法 152
5 Software* 软件 152
6 D
文档评论(0)