- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
科技文献全文主题识别方法实证研究
叶春蕾1,2 冷伏海1
1(中国科学院国家科学图书馆 北京 100190)
2(北京城市学院信息学部 北京 100094)
【摘要】 科技文献中蕴含着大量揭示学科内容的主题信息,本文利用基于多词短语词频分析和短语邻近分析的DT方法,并增加了学科领域术语识别内容,对美国国家航空航天局2011-2020年战略规划做全文主题识别。实验证明,改进的DT方法可以有效地识别全文文献主题,一定程度上简化情报研究人员的工作。
【关键词】共词分析 主题识别 DT 术语识别
【分类号】G350
The Theme Identification Empirical Study on Technical documentation in Full-text
Ye Chunlei1, 2 and Leng fuhai1
1(National Science Library, Chinese Academy of Science, Beijing 100190, China)
2 (Information Department, Beijing City University, Beijing 100094,China)
[Abstract] There is abundant thematic information in the technical documentations which can reveal the content of the subject. The paper proposes an improved DT method to identify the theme of the NASA 2011-2020 strategic plan based on multi-word phrases frequency analysis and phrases proximity analysis, adding the term identification of subject. Experiment proves that the improved DT method can identify effectively the theme of documentation in full-text and simply the work of intelligences to some extent.
[Keywords] co-word analysis; theme identification; DT; term identification
1. 引言
科学技术文献是科学技术发展过程中知识的主要载体,是科学技术发展过程的累积形态,其中蕴含着大量的揭示学科发展演化的主题信息,对科学技术文献中蕴含的学科主题进行识别是情报人员研究的主要内容之一。主题及主题之间的关系都隐含在大量的文本数据库中,为了从中高效地发现并汲取有用的信息,情报研究人员围绕科技文献的内、外部特征,研究并实践了多种文献计量分析方法,其中包括利用科技文献的引文数据所开展的同被引分析、引文耦合分析等进行文献主题识别[1]。另一种常用的主题识别方法是共词分析方法[2],基于共词分析方法的主题识别更多地采用科技文献数据库标引的主题词进行共现聚类识别[3]。由于诸如科技规划、科技项目申请和描述、科研项目评估材料等这类科学技术文献缺少引文数据、主题词等信息,因此,以上的两种方法很难获得蕴含在科技文献文本中的主题内容。
2.研究背景
DT(Database Tomography)是Ronald N. Kostoff等于20世纪90年代初提出的一种面向全文数据库的共词分析方法,并申请美国专利[4]。该方法基于这样的假设:科技文献中出现频次高的短语表征一个主题,而与该高频短语在一定的时间窗口内同时出现的共词短语将会和高频短语产生主题关系。此后,Kostoff等将DT方法成功地应用于多个领域[5-8],并提出将文献的其他特征信息,如作者、期刊、机构或引文分析也参与DT研究方法中[9]。由于受美国专利的保护,DT方法主要被以Kostoff为首的美国海军研究总署(Office of Naval Research, ONR)研究团队研究和使用。2005 年,Kostoff等获得了“基于文献的知识发现方法”专利授权[10]。该专利整合了DT方法和其他文献计量分析方法,提出基于文献的知识发现方法(Literature-Based Discovery,LBD),自此,DT方法只是作为基于文献的知识发现方法一部分,较少被单独提及。
国内对DT方法的研究还不够充分,冯璐、冷伏海将DT视为“新一代”的共词分析方法[11],但并没有对
文档评论(0)