医学文献集合的主题抽取和主题聚类实践.pdfVIP

医学文献集合的主题抽取和主题聚类实践.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
医学文献集合的主题抽取和 主题聚类实践* □ 殷蜀梅 / 北京大学医学图书馆 北京 100083 □ 张智雄 / 中国科学院国家科学图书馆 北京100190 摘要:文献中的重要关键词能够反映其核心主题,因此对文献主题的发现和抽取问题就转化为对文献 中的重要关键词集合的抽取。文章在调研了国外在主题抽取和聚类方面采用的技术方法的基础上,提出了 在医学学科领域从文本信息资源中抽取主题并进行主题领域判断的技术方案,并详细阐述了其中的主题聚 类的技术环节。为了验证该技术方案的有效性,文章以骨关节炎领域为例,对文中提出的技术方案进行实 DLF 践验证。验证的结果表明文章提出的技术方案有着实际的有效性。该文为2008年第9期本期话题“知识抽 取”的文章之一。 关键词:知识抽取,主题抽取,BM25F,MMTx,文本挖掘,医学数据挖掘,数字图书馆 题 话 期 本 DOI:10.3772/j.issn.1673-2286.2008.09.005 1 引言 断的技术方案,其中具体的主题抽取技术细节已另 外撰文详细说明,本文在提出主体抽取和聚类的技 T o 一篇学术文献可以包含多个关键词,但只有其 术框架后,以主题聚类的技术细节为重点进行详细 p i c 中一部分重要的关键词能够表达文献的主要内容。 阐述,并以医学中骨关节炎学科领域为例进行了实 这组重要关键词对于文本有着重要的强文本表示功 证研究。 能。所谓强文本表示功能是指 “在文本表示时,能 将文本的内容特征 (例如领域类别、主题思想、中 2 当前主题抽取和聚类的技术方法 [1] 心意义等)鲜明地表示出来” 。这部分重要的关 键词也就是这篇文献的主题。通过对多篇文献主题 主题抽取和聚类是当前文本挖掘研究的热点 的分析,人们可以从中发现隐含的热点主题领域。 之一。各个相关项目对于如何抽取主题并形成主 一个主题领域往往包含着丰富的内涵,以单个主题 题领域都提出了各自的理解和方法。具体的技术 词来反映一个主题领域有其局限性,以多个相互关 方法有: 联的主题来描述主题领域比以单个主题词更为直观 (1)从高频被引论文中抽取高频词来代表主 和全面。知识抽取就是从海量的文献集合中发现隐 题领域 含的知识,因而主题的抽取和主题领域的聚类对于 ISI[2] 以5年的高频被引论文和核心文献为基础, 知识抽取具有重要的意义。在利用计算机进行主动 利用论文共引理论,以双引聚类方法聚类同时被一 地知识抽取的过程中,如何从文献中抽取文献主题 篇或几篇论文引用的文献类群,然后根据划分的专 以及如何从众多的文献中发现研究的主题领域是亟 业进行专业聚类,产生各学科的专题文献束,从这 需解决的两个重要问题。 些文献束的文献题名中统计出出现频次较高的、能 本文针对主题抽取和聚类这两个关键问题,在 够反映科学前沿动态的一系列词簇,每个词簇对应 调研

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档