以自組織映射圖進行計算語言學領域術語視覺化之研究.pdfVIP

以自組織映射圖進行計算語言學領域術語視覺化之研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以自組織映射圖進行計算語言學領域術語視覺化之研究

以自組織映射圖進行計算語言學領域術語視覺化之研究 以自組織映射圖進行計算語言學領域術語視覺化之研究 以自組織映射圖進行計算語言學領域術語視覺化之研究以自組織映射圖進行計算語言學領域術語視覺化之研究 Visualizing the Terms of Computational Linguistics with Self-Organizing Maps 林頌堅 Sung-Chien Lin 世新大學資訊傳播學系 Department of Information and Communications, Shih-Hsin University scl@.tw 摘要 本論文的研究利用自組織映射圖(SOM)技術將計算語言學相關術語對應到二維圖形, 摘要 摘要摘要 使得術語之間的關係可以在映射圖中加以呈現,提供使用者做為資訊檢索以及了解重要研 究主題的輔助工具。在本論文中,我們所探討的問題有(1)發展SOM技術應用到術語資訊視 覺化的方法,(2)評估SOM技術應用到術語資訊視覺化的成效,(3)利用研究結果分析計算語 言學中重要的研究主題與主題之間的關係。在SOM技術的應用中,首先從論文資料中抽取 重要的術語,接著以術語之間的共現關係做為基礎,建立每一個術語的特徵向量。再以術 語特徵向量做為輸入資料,進行SOM訓練以及將術語映射到圖形上。對於這項技術在應用 上的成效評估,由於映射節點的距離關係在視覺上要需要符合術語間的相關性。因此,我 們建議以特徵向量的距離與節點位置的距離之間的相關係數做為成效評估的標準。最後, 對於計算語言學領域的術語所進行的實驗中可以發現大多數相關的術語都可以映射到相鄰 近的節點上,而術語所映射節點的位置也可以大致表現主題之間的關係。這個結果表示SOM 技術適合應用於術語資訊視覺化。 緒論 1 緒論 緒論緒論 本論文是一個將計算語言學相關術語(terms)對應到二維圖形的研究,其目的是希望能夠蘊含在術語 之間的資訊加以視覺化(visualization) 。從論文所抽取出來的術語可以表示研究問題、方法、理論與技術 等論文相關的主題,若是針對某一研究領域所發表的論文進行術語抽取並加以統計,所得到的高頻術語 便是這個領域的重要主題[1] 。因此,這些從論文抽取出來的術語將有助於了解這個領域所發展的研究課 題或是進行資訊的檢索。為了進一步幫助使用者從大量的文件資料庫中搜尋相關的資訊來解決所面對的 研究問題以及提供他們對於這個領域研究所產生的知識結構(knowledge structure)有完整的認識,可以將 這些術語整理成階層式(hierarchical)組織或網路式(network)組織,來闡明術語之間的關係。在資訊檢索的 技術與應用上,索引典(thesaurus)便是將某一特定領域的相關術語與它們之間的關係整理成一個階層式與 網路形式的組織[2] 。在索引典的結構裡,將每一個術語作為網路中的節點,而以相關術語之間的關係作 為相應節點之間的連結。近來,許多研究提出各種術語組織的自動化方法,這些方法多以統計的叢集 (clustering)技術為組織術語的方法,將關聯性較強的術語放到相同的集合中,並且利用術語在文句中的共 現(co-occurrence)關係作為術語之間的關聯[3, 4] 。利用叢集所形成集合便可以了解術語之間的關聯性,並 且在同一集合中的術語往往經常共同出現在主題相關的論文中,因此這些術語集合可以呈現這個研究領 域的研究主題。然而,除了利用叢集技術所形成的集合來對於術語之間的關聯進行分析之外,若能夠將 術語以及它們之間的關聯呈現在圖形中,提供瀏覽與深入探索,對於檢索相關資訊與分析領域的知識結 構勢必更有幫助。 『資訊視覺化』 (information visualization)是以二維或三維的圖形來表現一組資料之間的可能關係, 目的是輔助人們認知原本的資料間不易察覺的關係,作為決策判斷或探索

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档