语料库统计值和全球资讯网.PDFVIP

下载本文档

3
0
约2.91万字
约 12页
2019-06-05 发布于湖北
举报

语料库统计值和全球资讯网.PDF

語料庫統計值與語料庫統計值與全球資訊網統計值之比較：以中文斷詞應用為例全球資訊網統計值之比較：以中文斷詞應用為例語料庫統計值與語料庫統計值與全球資訊網全球資訊網統計值之比較：以中文斷詞應用為例統計值之比較：以中文斷詞應用為例林筱晴陳信希國立台灣大學資訊工程學系 hclin@.tw; hhchen@.tw 摘要摘要 . 近年來全球資訊網(World Wide Web ，簡稱Web)快速成長，不同來源、不同領域、不摘要摘要同媒體的資訊透過網路傳遞到使用者手上。Web除了扮演資訊傳播的角色外，也可以被視為是一個超大的資料集，提供語料庫為基礎－統計導向方法(Corpus-Based Statistics-Oriented Approach) 所需要的統計值。本文以中文斷詞應用為例，由傳統語料庫和全球資訊網中，取得運用 word-based n-gram model解斷詞歧義時所需要的統計值，藉以比較傳統語料庫和全球資訊網的差異。在第一組實驗，我們假設完全沒有未知詞，運用傳統語料庫的統計值最佳，其次依序為 Google 為基礎、 AltaVista 為基礎、和 Openfind 為基礎。在第二組實驗，我們針對指定實體辨識，地名和組織名這兩類有不錯的效能。在第三組實驗，我們整合斷詞系統與指定實體辨識模組，全球資訊網統計值比傳統語料庫的統計值好。在最後一組實驗，我們將傳統語料庫和全球資訊網混合在一起，以全球資訊網統計值解決未知詞問題，再以語料庫統計值解斷詞歧義性，實驗顯示具有最佳的斷詞效能。 1. 緒論緒論緒論緒論在統計式自然語言處理 (statistical natural language processing) ，語言模型的設計、和統計值的來源是兩個實驗成功不可缺少的要件。因為語言是 “活的 ”(live) ，在日常生活中不斷有新的辭彙、和新的用法產生，系統必須能及時反應新的語言現象，因此使用具有時效性的資源非常重要。對於傳統語料庫而言，資料量規模固定、內容領域變動小、時效性較弱是其缺點，但優點是可以先加上標記(tagging) ，增加附加價值，同時可以直接透過程式，精確掌握所需要的統計資訊。相對地，全球資訊網 (World Wide Web ，簡稱Web)擁有十分龐大的資訊量、收集各種不同種類的文件、動態性等優點，但缺點是沒有加上語言標記，通常需要透過搜尋引擎 (search engine)取得統計資訊，容易受到搜尋引擎本身設計上的限制 (例如，文件索引的方式、查詢詞彙處理等) 。本文將 Web 視為一個資料量龐大、且具時效性的語料庫，研究如何利用網路上的資訊來訓練統計式語言模型，並與傳統語料庫比較。近年來，運用Web 於自然語言處理，有些相關論文發表。Zhu 和 Rosenfeld (2001)運用 Web改善 trigram model ，Computational Linguistics 期刊(2003)也發行專刊探討這個課題，Resnik 和 Smith (2003) 將 Web 視為平行語料庫，提供翻譯模型所需要的雙語句子。 Keller 和 Lapata (2003)說明由語料庫和 Web 上所擷取的英文 bigram 統計值是有關聯性，但顯而易見這項理論在中文上，由於斷詞的問題，不見得就成立。中文斷詞在中文自然語言處理上是個基本的工作，許多自然語言處理應用都以斷詞作為前置處理，例如機器翻譯、問答系統、自動摘要等。歧義性是中文斷詞系統第一個必須解決的問題，由於中文字串可能有多種不同的斷詞組合，斷詞系統必須選出其中最好的一種斷詞方式。另外，受限於辭典覆蓋度的問題，未知詞處理也是必要的工作。而指定實體(named entities ，簡稱NE) 是常見的未知詞，一般斷詞系統都會輔以指定實體辨識模組，提出策略自動辨識出人名、地名、和組織名等的存在 (Chen, Ding 和 Tsai, 1998; Chen, Yang 和 Lin, 2003) 。本文以中文斷詞系統為例，以統計式語言模型作為基礎，將 Web 統計資訊應用在中文斷詞上。透過對搜尋引擎查詢，所傳

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

语料库统计值和全球资讯网.PDFVIP