- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于自然语言处理技术的研究主题抽取与分析-ACLAnthology
基於自然語言處理技術的研究主題抽取與分析
Extraction and Analysis of Research Topics
Based on NLP Technologies
世新大學資訊傳播學系
Department of Information and Communications, Shih-Hsin University
林頌堅
Sung-Chen Lin
Email: scl@.tw
摘要
本論文針對研究主題分析的問題,提出一系列以自然語言處理為基礎的技
術,從學術領域中發表的論文資料中抽取重要的關鍵詞語,並將這些詞語依據彼
此間共現關係進行叢集,以叢集所得到的詞語集合表示領域中重要的研究主題。
研究主題分析在學術領域的應用上,可以提供研究人員一個清楚的梗概;在資訊
檢索的過程中,則可以幫助使用者釐清資訊需求。我們並將所提出的方法應用到
ROCLING研討會的論文資料上 ,抽取計算語言學領域的重要研究主題 。結果顯示
這個方法可以應用於國內學術領域的特殊環境,同時抽取出中文和英文的關鍵詞
語,所得到的詞語叢集結果也可以表示領域中重要的研究主題。這樣的結果初步
的驗證了本論文所提出方法的可行性。從研究結果中,我們也發現計算語言學研
究與實務應用有密切的關係,抽取出來的詞語叢集中有許多與機器翻譯、語音處
理和資訊檢索相關,在語言的計算模式上 ,語法模式與剖析、斷詞和統計式語言
1
模型的建立則是國內計算語言學家所關心的主題。
一、緒論
資訊檢索研究著重的問題是人與資訊之間的介面,近 來的研究趨勢注重於使
用者所具有的背景知識、在檢索過程中對問題的認知 [Wilson, 1999]及資料的嫻熟
程度 (material mastery)[Bishop, 1999][Covi, 1999] 。為了對一個學術領域的資訊傳播
現象進行全面的了解,所謂的「領域分析」(domain analysis)藉由對學術領域內重
要的學術活動,諸如研究、論文發表、會議參與等等進行分析,探討研究人員所
使用或產生的知識組織、結構、合作模式 、語言和通訊形式、資訊系統以及相關
標準等[Hjørland and Albrechtsen, 1995] 。而研究主題分析可以說是領域分析的一
項要務,了解重要的研究主題可以掌握領域中的知識組織,幫助使用者釐清資訊
需求(information need) ,迅速取得所需的資訊 。此外 ,藉由有系統的方法抽取研究
主題並加以分析,可以展示學術領域研究一個完整的面貌,提供新進學者在初期
進入領域時的參考,也可以作為學術研究領域發展的指引(road map) ,提供已經深
入的研究人員擴展學術研究的範疇。
本論文提出一個自動化的研究主題抽取方法,從學術領域中發表的論文集合
中選出關鍵詞語,再依據詞語彼此間出現在相同論文中具有特定意義的共現
(co-occurrences)現象 ,辨認每一篇論文中可能具有的研究主題,作為分析這個領域
重要研究主題的依據。我們認為論文的豐富詞彙訊息蘊含了研究主題。在論文發
2
表的過程中,作者藉由論文題名、摘要以及本文中的詞語將研究的問題、方法與
結果等主題傳達給讀者,甚至論文所引用的參考文獻題名也包含許多與主題相關
的詞語訊息;而讀者在閱讀論文時,便可 以依據這些詞語判斷與本身研究興趣上
的相關性 ,同時將這些資訊建構與融入個人的知識結構中 [Harter, 1992] 。以本論文
做一例子 ,在本論文的題名 、摘要和本文中包含了許多 『學術領域』、『研究主題』、
『論文』等等詞語,目的是希望讀者在閱讀時,可以從這些詞語的共同出現與使
用,了解我們所研究的主題是從學術論文中抽取重要的研究主題,而有興趣的讀
者在閱讀後,便可在研究與發表上加以利用。進一步地,在一個學術領域中,可
以發現某些受到重視的研究主題相關
文档评论(0)