基于自然语言处理技术的研究主题抽取与分析-ACLAnthology.PDFVIP

基于自然语言处理技术的研究主题抽取与分析-ACLAnthology.PDF

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于自然语言处理技术的研究主题抽取与分析-ACLAnthology

基於自然語言處理技術的研究主題抽取與分析 Extraction and Analysis of Research Topics Based on NLP Technologies 世新大學資訊傳播學系 Department of Information and Communications, Shih-Hsin University 林頌堅 Sung-Chen Lin Email: scl@.tw 摘要 本論文針對研究主題分析的問題,提出一系列以自然語言處理為基礎的技 術,從學術領域中發表的論文資料中抽取重要的關鍵詞語,並將這些詞語依據彼 此間共現關係進行叢集,以叢集所得到的詞語集合表示領域中重要的研究主題。 研究主題分析在學術領域的應用上,可以提供研究人員一個清楚的梗概;在資訊 檢索的過程中,則可以幫助使用者釐清資訊需求。我們並將所提出的方法應用到 ROCLING研討會的論文資料上 ,抽取計算語言學領域的重要研究主題 。結果顯示 這個方法可以應用於國內學術領域的特殊環境,同時抽取出中文和英文的關鍵詞 語,所得到的詞語叢集結果也可以表示領域中重要的研究主題。這樣的結果初步 的驗證了本論文所提出方法的可行性。從研究結果中,我們也發現計算語言學研 究與實務應用有密切的關係,抽取出來的詞語叢集中有許多與機器翻譯、語音處 理和資訊檢索相關,在語言的計算模式上 ,語法模式與剖析、斷詞和統計式語言 1 模型的建立則是國內計算語言學家所關心的主題。 一、緒論 資訊檢索研究著重的問題是人與資訊之間的介面,近 來的研究趨勢注重於使 用者所具有的背景知識、在檢索過程中對問題的認知 [Wilson, 1999]及資料的嫻熟 程度 (material mastery)[Bishop, 1999][Covi, 1999] 。為了對一個學術領域的資訊傳播 現象進行全面的了解,所謂的「領域分析」(domain analysis)藉由對學術領域內重 要的學術活動,諸如研究、論文發表、會議參與等等進行分析,探討研究人員所 使用或產生的知識組織、結構、合作模式 、語言和通訊形式、資訊系統以及相關 標準等[Hjørland and Albrechtsen, 1995] 。而研究主題分析可以說是領域分析的一 項要務,了解重要的研究主題可以掌握領域中的知識組織,幫助使用者釐清資訊 需求(information need) ,迅速取得所需的資訊 。此外 ,藉由有系統的方法抽取研究 主題並加以分析,可以展示學術領域研究一個完整的面貌,提供新進學者在初期 進入領域時的參考,也可以作為學術研究領域發展的指引(road map) ,提供已經深 入的研究人員擴展學術研究的範疇。 本論文提出一個自動化的研究主題抽取方法,從學術領域中發表的論文集合 中選出關鍵詞語,再依據詞語彼此間出現在相同論文中具有特定意義的共現 (co-occurrences)現象 ,辨認每一篇論文中可能具有的研究主題,作為分析這個領域 重要研究主題的依據。我們認為論文的豐富詞彙訊息蘊含了研究主題。在論文發 2 表的過程中,作者藉由論文題名、摘要以及本文中的詞語將研究的問題、方法與 結果等主題傳達給讀者,甚至論文所引用的參考文獻題名也包含許多與主題相關 的詞語訊息;而讀者在閱讀論文時,便可 以依據這些詞語判斷與本身研究興趣上 的相關性 ,同時將這些資訊建構與融入個人的知識結構中 [Harter, 1992] 。以本論文 做一例子 ,在本論文的題名 、摘要和本文中包含了許多 『學術領域』、『研究主題』、 『論文』等等詞語,目的是希望讀者在閱讀時,可以從這些詞語的共同出現與使 用,了解我們所研究的主題是從學術論文中抽取重要的研究主題,而有興趣的讀 者在閱讀後,便可在研究與發表上加以利用。進一步地,在一個學術領域中,可 以發現某些受到重視的研究主題相關

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档