利用双语学术名词库抽取中英字词互译及词义解歧-Associationfor.PDFVIP

  • 6
  • 0
  • 约1.91万字
  • 约 12页
  • 2019-02-26 发布于北京
  • 举报

利用双语学术名词库抽取中英字词互译及词义解歧-Associationfor.PDF

利用雙語學術名詞庫抽取中英字詞互譯及詞義解歧 1,2 1 2 白明弘 、陳克健 、張俊盛 1 中央研究院資訊科學研究所 2 國立清華大學資訊工程研究所 mhbai@.tw, kchen@.tw, jschang@.tw 摘要 語意的研究十分依賴語意知識庫所提供的訊息,由於語意研究逐漸變得熱門,相對的語意知 識庫的建構也變得十分迫切。WordNet 是目前最廣為人知的英語語意知識庫,許多語意解歧(word sense disambiguation)的研究都以 WordNet 為共同標準。由於 WordNet 的成功,使得許多其他語 系的 WordNet建構計畫也紛紛出現。本文提出一個自動從雙語學術名詞庫中抽取中文語意訊息 的方法,這個方法利用一個詞和詞的對應(word-to-word alignment)演算法抽取中英詞對譯的訊 息,再用語意解歧的方法,將中文詞連結到 WordNet synset ,以建構中文 WordNet 。 1. 緒論 近年來在自然語言處理領域中,語意研究受到了廣泛的重視。語意解歧的技術不斷推陳出 新,進而使得語意的應用也受到鼓舞。然而,語意的使用必需仰賴語意知識庫提供語意訊息,這 些訊息包括一個詞彙有多少不同的語意,以及一個語意和另一個語意是否有同義關係或是上下位 關係等。例如:「分子」可以表示化學上的「粒子」(如「水分子」) ,也可以表示「一群人」(如 「激進分子」) ;而「拉布拉多」和「大麥町」由其上位詞可知都是一種「狗」。 WordNet 是一部訊息豐富的語意知識庫[Miller 1990] ,其中收錄了為數極多的詞彙。在結構 上它將所有的相同的語意集成 synset ,並以 synset 為基礎進一步連結語意之間的關係,如上位 關係(hypernym) 、下位關係(hyponym) 、整體關係(holonyms)及部分關係(meronyms)等。目前 WordNet 已經被應用在許多的研究上,如語意解歧(word sense disambiguation) 、資訊檢索 (information retrieval) 及電腦輔助語言學習(computer-assisted language learning)等領域,儼然成為 語意研究的共同標準。 由於 WordNet 的成功使得許多其他語系的 WordNet建構計畫相繼出現。例如: EuroWordNet (EWN) ,該計畫目標為建構包含多種歐洲語的 WordNet ,及中文詞網計畫[CKIP 2003] ,以建構中文語意知識庫為目標。從零開始建構一個 WordNet 是一項艱鉅的任務,所以有 許多的研究嘗試以自動的方式將詞彙連結到 WordNet 。例如:[Atserias et al. 1997] 、[Daude et al. 1999]以及[Jason et al. 2003]都是利用雙語詞典所提供的翻譯,自動將詞彙連結到 WordNet 。使用 一般雙語詞典的翻譯最大的問題在於用詞過度典型化。例如:”plant” 在 WordNet 中的第一個語 意 “plant, works, industrial plant” ,在雙語詞典中翻譯成「工廠」。但實際上在文章中可能翻譯成 「廠」、「工廠」、「廠房」、「所」(如「power plant/發電所」)及「工場」等詞。用詞過度典型化的 現象,使得許多文章中的用詞無法找到適當的翻譯連結到 WordNet 。 在本實驗中,我們選擇以雙語學術名詞庫作為抽取語意訊息的資料來源。由於學術名詞庫中 包含了大量的複合詞,所以很多詞會搭配不同的詞一再出現,並對應到不同的翻譯。因此不但可 以避免一般雙語詞典翻譯過度典型化的問題,而且多樣化的翻譯結果可以幫助語意解歧 [Diab et al, 2002][Bhattacharya, 2004] 。在本實驗中我們將問題分成兩個部分:a) 如何找出中文詞和英文 詞對應的翻譯,b) 如何解決英文的歧義。 本文接下來的章節組織如下。在第 2 節中說明所使用的資源。第 3 節中說

文档评论(0)

1亿VIP精品文档

相关文档