基于自然语言处理技术的研究主题抽取与分析-MIRLab.DOC

下载文档 降价啦

6
0
约2.02万字
约 27页
2018-10-13 发布于天津
举报
版权申诉
保障服务

基于自然语言处理技术的研究主题抽取与分析-MIRLab.DOC

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于自然语言处理技术的研究主题抽取与分析-MIRLab

PAGE PAGE 25 基於自然語言處理技術的研究主題抽取與分析 Extraction and Analysis of Research TopicsBased on NLP Technologies 世新大學資訊傳播學系 Department of Information and Communications, Shih-Hsin University 林頌堅 Sung-Chen Lin Email: scl@.tw 摘要本論文針對研究主題分析的問題，提出一系列以自然語言處理為基礎的技術，從學術領域中發表的論文資料中抽取重要的關鍵詞語，並將這些詞語依據彼此間共現關係進行叢集，以叢集所得到的詞語集合表示領域中重要的研究主題。研究主題分析在學術領域的應用上，可以提供研究人員一個清楚的梗概；在資訊檢索的過程中，則可以幫助使用者釐清資訊需求。我們並將所提出的方法應用到ROCLING研討會的論文資料上，抽取計算語言學領域的重要研究主題。結果顯示這個方法可以應用於國內學術領域的特殊環境，同時抽取出中文和英文的關鍵詞語，所得到的詞語叢集結果也可以表示領域中重要的研究主題。這樣的結果初步的驗證了本論文所提出方法的可行性。從研究結果中，我們也發現計算語言學研究與實務應用有密切的關係，抽取出來的詞語叢集中有許多與機器翻譯、語音處理和資訊檢索相關，在語言的計算模式上，語法模式與剖析、斷詞和統計式語言模型的建立則是國內計算語言學家所關心的主題。一、緒論資訊檢索研究著重的問題是人與資訊之間的介面，近來的研究趨勢注重於使用者所具有的背景知識、在檢索過程中對問題的認知[Wilson, 1999]及資料的嫻熟程度(material mastery)[Bishop, 1999][Covi, 1999]。為了對一個學術領域的資訊傳播現象進行全面的了解，所謂的「領域分析」(domain analysis)藉由對學術領域內重要的學術活動，諸如研究、論文發表、會議參與等等進行分析，探討研究人員所使用或產生的知識組織、結構、合作模式、語言和通訊形式、資訊系統以及相關標準等[Hj?rland and Albrechtsen, 1995] 。而研究主題分析可以說是領域分析的一項要務，了解重要的研究主題可以掌握領域中的知識組織，幫助使用者釐清資訊需求(information need)，迅速取得所需的資訊。此外，藉由有系統的方法抽取研究主題並加以分析，可以展示學術領域研究一個完整的面貌，提供新進學者在初期進入領域時的參考，也可以作為學術研究領域發展的指引(road map)，提供已經深入的研究人員擴展學術研究的範疇。本論文提出一個自動化的研究主題抽取方法，從學術領域中發表的論文集合中選出關鍵詞語，再依據詞語彼此間出現在相同論文中具有特定意義的共現(co-occurrences)現象，辨認每一篇論文中可能具有的研究主題，作為分析這個領域重要研究主題的依據。我們認為論文的豐富詞彙訊息蘊含了研究主題。在論文發表的過程中，作者藉由論文題名、摘要以及本文中的詞語將研究的問題、方法與結果等主題傳達給讀者，甚至論文所引用的參考文獻題名也包含許多與主題相關的詞語訊息；而讀者在閱讀論文時，便可以依據這些詞語判斷與本身研究興趣上的相關性，同時將這些資訊建構與融入個人的知識結構中[Harter, 1992]。以本論文做一例子，在本論文的題名、摘要和本文中包含了許多『學術領域』、『研究主題』、『論文』等等詞語，目的是希望讀者在閱讀時，可以從這些詞語的共同出現與使用，了解我們所研究的主題是從學術論文中抽取重要的研究主題，而有興趣的讀者在閱讀後，便可在研究與發表上加以利用。進一步地，在一個學術領域中，可以發現某些受到重視的研究主題相關的詞語在許多論文中出現。以計算語言學領域來看，便可以發現諸如『語料庫』、『剖析』、『資訊檢索』等等的詞語在許多論文中出現，這些都是這個領域中的重要研究主題。而且與研究主題相關的一組詞語會重複出現在許多論文中。因此，如果對學術領域出版的論文進行分析，選取具有代表主題意義的詞語，統計這些詞語間的共現現象，利用這些資訊將經常一起出現的一組詞語叢聚成一個集合，所形成的詞語集合可以視為是某一特定的研究主題。在分析某一論文的主題時，便可以估算代表各研究主題的詞語叢聚與該論文的相關性，作為判斷該論文是否具有此一主題的資訊。因此，本論文嘗試利用自然語言處理技術來分析學術領域中發表的論文，確認論文中出現的詞語，抽取蘊含在其中詞語的共現訊息，再進行詞語叢聚(term clustering)，作為辨認主題分析的資訊。我們並將所發展出來的技術應用於國內計算語言學領域的主題分析。選擇以計算語言學作為研究對象的主要原因是這個領域具有科際整合研究(interdisciplinar