- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于自然语言处理技术的研究主题抽取与分析-MIRLab
PAGE
PAGE 25
基於自然語言處理技術的研究主題抽取與分析
Extraction and Analysis of Research TopicsBased on NLP Technologies
世新大學資訊傳播學系
Department of Information and Communications, Shih-Hsin University
林頌堅
Sung-Chen Lin
Email: scl@.tw
摘要
本論文針對研究主題分析的問題,提出一系列以自然語言處理為基礎的技術,從學術領域中發表的論文資料中抽取重要的關鍵詞語,並將這些詞語依據彼此間共現關係進行叢集,以叢集所得到的詞語集合表示領域中重要的研究主題。研究主題分析在學術領域的應用上,可以提供研究人員一個清楚的梗概;在資訊檢索的過程中,則可以幫助使用者釐清資訊需求。我們並將所提出的方法應用到ROCLING研討會的論文資料上,抽取計算語言學領域的重要研究主題。結果顯示這個方法可以應用於國內學術領域的特殊環境,同時抽取出中文和英文的關鍵詞語,所得到的詞語叢集結果也可以表示領域中重要的研究主題。這樣的結果初步的驗證了本論文所提出方法的可行性。從研究結果中,我們也發現計算語言學研究與實務應用有密切的關係,抽取出來的詞語叢集中有許多與機器翻譯、語音處理和資訊檢索相關,在語言的計算模式上,語法模式與剖析、斷詞和統計式語言模型的建立則是國內計算語言學家所關心的主題。
一、緒論
資訊檢索研究著重的問題是人與資訊之間的介面,近來的研究趨勢注重於使用者所具有的背景知識、在檢索過程中對問題的認知[Wilson, 1999]及資料的嫻熟程度(material mastery)[Bishop, 1999][Covi, 1999]。為了對一個學術領域的資訊傳播現象進行全面的了解,所謂的「領域分析」(domain analysis)藉由對學術領域內重要的學術活動,諸如研究、論文發表、會議參與等等進行分析,探討研究人員所使用或產生的知識組織、結構、合作模式、語言和通訊形式、資訊系統以及相關標準等[Hj?rland and Albrechtsen, 1995] 。而研究主題分析可以說是領域分析的一項要務,了解重要的研究主題可以掌握領域中的知識組織,幫助使用者釐清資訊需求(information need),迅速取得所需的資訊。此外,藉由有系統的方法抽取研究主題並加以分析,可以展示學術領域研究一個完整的面貌,提供新進學者在初期進入領域時的參考,也可以作為學術研究領域發展的指引(road map),提供已經深入的研究人員擴展學術研究的範疇。
本論文提出一個自動化的研究主題抽取方法,從學術領域中發表的論文集合中選出關鍵詞語,再依據詞語彼此間出現在相同論文中具有特定意義的共現(co-occurrences)現象,辨認每一篇論文中可能具有的研究主題,作為分析這個領域重要研究主題的依據。我們認為論文的豐富詞彙訊息蘊含了研究主題。在論文發表的過程中,作者藉由論文題名、摘要以及本文中的詞語將研究的問題、方法與結果等主題傳達給讀者,甚至論文所引用的參考文獻題名也包含許多與主題相關的詞語訊息;而讀者在閱讀論文時,便可以依據這些詞語判斷與本身研究興趣上的相關性,同時將這些資訊建構與融入個人的知識結構中[Harter, 1992]。以本論文做一例子,在本論文的題名、摘要和本文中包含了許多『學術領域』、『研究主題』、『論文』等等詞語,目的是希望讀者在閱讀時,可以從這些詞語的共同出現與使用,了解我們所研究的主題是從學術論文中抽取重要的研究主題,而有興趣的讀者在閱讀後,便可在研究與發表上加以利用。進一步地,在一個學術領域中,可以發現某些受到重視的研究主題相關的詞語在許多論文中出現。以計算語言學領域來看,便可以發現諸如『語料庫』、『剖析』、『資訊檢索』等等的詞語在許多論文中出現,這些都是這個領域中的重要研究主題。而且與研究主題相關的一組詞語會重複出現在許多論文中。因此,如果對學術領域出版的論文進行分析,選取具有代表主題意義的詞語,統計這些詞語間的共現現象,利用這些資訊將經常一起出現的一組詞語叢聚成一個集合,所形成的詞語集合可以視為是某一特定的研究主題。在分析某一論文的主題時,便可以估算代表各研究主題的詞語叢聚與該論文的相關性,作為判斷該論文是否具有此一主題的資訊。因此,本論文嘗試利用自然語言處理技術來分析學術領域中發表的論文,確認論文中出現的詞語,抽取蘊含在其中詞語的共現訊息,再進行詞語叢聚(term clustering),作為辨認主題分析的資訊。
我們並將所發展出來的技術應用於國內計算語言學領域的主題分析。選擇以計算語言學作為研究對象的主要原因是這個領域具有科際整合研究(interdisciplinar
您可能关注的文档
- 吃零食是儿童青少年常有的饮食行为.PPT
- 合成生物学的适配性研究及其在微生物天然产物药物中的应用.PDF
- 合成纹理图像的视觉相似性眼动分析-计算机科学.PDF
- 合肥滨湖新区生态建设规划摘要.DOC
- 吉林大学第一医院.DOC
- 同位素示踪及分子影像技术在临床前和临床药物-南京国际药代会议.PDF
- 同卵双生兄弟-RAWNASHOP.PPT
- 同工酶3影响酶促反应速度的因素.PPT
- 同济大学大型精密仪器设备申购论证报告-同济大学资产与试验室管理处.DOC
- 后基因组时代的医药新兴学科.PDF
- 基于自适应Voronoi检测器的故障检测算法-计算机应用与软件.PDF
- 基于知识融合的汽车覆盖件模具设计方法研究-重庆邮电大学.PDF
- 基于肿瘤干细胞的恶性肿瘤靶向治疗策略-中国医学科学院血液学研究所.PDF
- 基于行人仿真模拟技术的与既有地铁车站换乘设计研究-隧道建设.PDF
- 基于遥感的河岸带生态修复效应定量评价—以辽河干流为例-水利学报.PDF
- 基于集中监控数据资源的4G基站退服故障预警模型-信息通信学术.PDF
- 基于遗传算法的无监督分形属性规约技术-计算机工程与应用.PDF
- 基于霍夫变换的数字全息粒子尺寸测量.PDF
- 基于静态等值和奇异值分解的快速电压稳定性分析方法.PDF
- 基于霍夫变换的OSTU改进算法在路面裂缝检测中的研究-电子设计工程.PDF
原创力文档


文档评论(0)