基于术语抽取与术语丛集技术的主题抽取TopicExtractionBasedon.PDF

基于术语抽取与术语丛集技术的主题抽取TopicExtractionBasedon.PDF

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于术语抽取与术语丛集技术的主题抽取TopicExtractionBasedon

Computational Linguistics and Chinese Language Processing Vol. 9, No.1, February 2004, pp.97-112 97 The Association for Computational Linguistics and Chinese Language Processing 於術語抽取與術語叢集技術的主題抽取 Topic Extraction Based on Techniques of Term Extraction and Term Clustering 林頌堅* * Sung-Chen Lin 摘要 本論文針對主題抽取的問題 ,提出一系列以自然語言處理為基礎的技術,應用 這些技術可以從學術論文抽取重要的術語,並將這些術語依據彼此間的共現關 係進行叢集,以叢集所得到的術語集合表示領域中重要的主題 ,提供研究人員 學術領域的梗概並釐清他們的資訊需求 。我們將所提出的方法應用到 ROCLING 研討會的論文資料上,結果顯示這個方法可以同時抽取出計算語言 學領域的中文和英文術語,所得到的術語叢集結果也可以表示領域中重要的主 題。這個初步的研究驗證了本論文所提出方法的可行性。重要的主題包括機器 翻譯、語音處理、資訊檢索、語法模式與剖析 、斷詞和統計式語言模型等等 。 從研究結果中,我們也發現計算語言學研究與實務應用有密切的關係。 關鍵詞: 主題抽取 、術語抽取 、術語叢集 Abstract In this paper, we propose a series of natural language processing techniques to be used to extract important topics in a given research field. Topics as defined in this paper are important research problems, theories, and technical methods of the examined field, and we can represent them with groups of relevant terms. The terms are extracted from the texts of papers published in the field, including titles, abstracts, and bibliographies, because they convey important research information and are relevant to knowledge in that field. The topics can provide a clear outline of the field for researchers and are also useful for identifying users information *世新大學資訊傳播學系 Department of Information and Communications, Shih-Hsin University, Taipei, Taiwan, R.O.C. Email: scl@.tw 98 林頌堅

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档