语料库统计值和全球资讯网.PDFVIP

  • 3
  • 0
  • 约2.91万字
  • 约 12页
  • 2019-06-05 发布于湖北
  • 举报
語料庫統計值與語料庫統計值與 全球資訊網統計值之比較:以中文斷詞應用為例全球資訊網統計值之比較:以中文斷詞應用為例 語料庫統計值與語料庫統計值與 全球資訊網全球資訊網統計值之比較:以中文斷詞應用為例統計值之比較:以中文斷詞應用為例 林筱晴 陳信希 國立台灣大學資訊工程學系 hclin@.tw; hhchen@.tw 摘要摘要 . 近年來全球資訊網(World Wide Web ,簡稱Web)快速成長,不同來源 、不同領域、不 摘要摘要 同媒體的資訊 透過網路傳遞到使用者手上 。Web除了扮演資訊傳播的角色外,也可以被視為是 一個超大的資料集,提供語料庫為基礎-統計導向方法(Corpus-Based Statistics-Oriented Approach) 所需要的統計值 。本文以中文斷詞應用為例,由傳統語料庫和全球資訊網中,取得運用 word-based n-gram model解斷詞歧義時所需要的統計值, 藉以比較傳統語料庫和 全球資訊網的差異。在第一 組實驗,我們假設完全沒有未知詞,運用傳統語料庫的統計值最佳,其次依序為 Google 為基礎、 AltaVista 為基礎、和 Openfind 為基礎 。在第二組實驗,我們針對指定實體辨識,地名和組織名 這兩類有不錯的效能 。在第三組實驗,我們整合斷詞系統與指定實體辨識模組,全球資訊網統計 值比傳統語料庫的統計值好 。在最後一組實驗,我們將傳統語料庫和全球資訊網混合在一起,以 全球資訊網統計值解決未知詞問題,再以語料庫統計值解斷詞歧義性,實驗顯示具有最佳的斷詞 效能。 1. 緒論緒論 緒論緒論 在統計式自然語言處理 (statistical natural language processing) ,語言模型的設計、和統計值的 來源是兩個實驗成功不可缺少的要件。因為語言是 “活的 ”(live) ,在日常生活中不斷有新的辭彙、 和新的用法產生,系統必須能及時反應新的語言現象,因此使用具有時效性的資源非常重要。對 於傳統語料庫而言,資料量規模固定、內容領域變動小、時效性較弱是其缺點,但優點是可以先 加上標記(tagging) ,增加附加價值,同時可以直接透過程式,精確掌握所需要的統計資訊。相對 地,全球資訊網 (World Wide Web ,簡稱Web)擁有十分龐大的資訊量、收集各種不同種類的文件、 動態性等優點,但缺點是沒有加上語言標記,通常需要透過搜尋引擎 (search engine)取得統計資 訊,容易受到搜尋引擎本身設計上的限制 (例如,文件索引的方式 、查詢詞彙處理等) 。本文將 Web 視為一個資料量龐大 、且具時效性的語料庫,研究如何利用網路上的資訊來訓練統計式語 言模型,並與傳統語料庫比較 。近年來,運用Web 於自然語言處理,有些相關論文發表 。Zhu 和 Rosenfeld (2001)運用 Web改善 trigram model ,Computational Linguistics 期刊(2003)也發行專刊 探討這個課題,Resnik 和 Smith (2003) 將 Web 視為平行語料庫,提供翻譯模型所需要的雙語 句子。 Keller 和 Lapata (2003)說明由語料庫和 Web 上所擷取的英文 bigram 統計值是有關聯 性,但顯而易見這項理論在中文上,由於斷詞的問題,不見得就成立 。 中文斷詞在中文自然語言處理上是個基本的工作,許多自然語言處理應用都以斷詞作為前置 處理,例如機器翻譯 、問答系統、自動摘要等。歧義性是中文斷詞系統第一個必須解決的問題, 由於中文字串可能有多種不同的斷詞組合,斷詞系統必須選出其中最好的一種斷詞方式 。另外, 受限於辭典覆蓋度的問題,未知詞處理也是必要的工作 。而指定實體(named entities ,簡稱NE) 是常見的未知詞,一般斷詞系統都會輔以指定實體辨識模組 ,提出策略自動辨識出人名、地名、 和組織名等的存在 (Chen, Ding 和 Tsai, 1998; Chen, Yang 和 Lin, 2003) 。本文以中文斷詞系統為 例,以統計式語言模型作為基礎,將 Web 統計資訊應用在中文斷詞上 。透過對搜尋引擎查詢, 所傳

文档评论(0)

1亿VIP精品文档

相关文档