全语库中文词义标记的初步的研究.pptVIP

  • 3
  • 0
  • 约1.57千字
  • 约 11页
  • 2017-08-12 发布于安徽
  • 举报
全語料庫中文詞義標記的初步研究 1. 簡介 語料庫對自然語言處理研究佔有相當重要的地位。隨著電腦科技的進步及數位文獻之普及,語料庫的種類越來越多,內容也越來越豐富。標示訊息越完整的語料庫對研究的幫助越大。有些語料庫只以原始語料呈現,有的則加上詞性、詞義等標示資料。目前,標示詞性的語料庫有很多,至於標示詞義的語料庫不論中英文都很少。 中文語料庫詞義標記有兩個主要的瓶頸:第一是缺乏涵蓋面廣兼具完整理論基礎的詞義區分詞彙庫。換句話說,就是缺乏可靠的詞義標記依據。第二是,因為缺乏足供自動標記參考的資料,而人工標示需要昂貴成本,造成語料庫標示語意工作的難產。 為了克服第一個問題,黃居仁(2003)提出了完整的中文詞義區分理論與操作原則,並已完成了將近2000 個中文詞義的分析(黃居仁2004)。為了克服第二個問題,本研究提議設法利用機器學習方法,由電腦蒐集標示知識以進行自動語意標示的工作。另外,我們發現,就特定詞彙而言,表達相同詞義的句子其目標詞彙的周邊往往有固定的搭配詞彙出現。因此,本文提出以詞彙為主結合搭配訊息與機率模式的方式來處理語意自動標示工作。 2. 周邊詞彙決定詞義 在岐義辨識處理上,出現在目標詞彙周邊的特定搭配往往就可以決定詞彙的詞義,Yarowsky在1993 年提出的「one sens

文档评论(0)

1亿VIP精品文档

相关文档