语料库统计值与全球资讯网统计值之比较-Associationfor.PDFVIP

下载本文档

1
0
约2.91万字
约 12页
2018-03-03 发布于天津
举报
版权申诉

语料库统计值与全球资讯网统计值之比较-Associationfor.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语料库统计值与全球资讯网统计值之比较-Associationfor

語料庫統計值與語料庫統計值與全球資訊網統計值之比較：以中文斷詞應用為例全球資訊網統計值之比較：以中文斷詞應用為例語料庫統計值與語料庫統計值與全球資訊網全球資訊網統計值之比較：以中文斷詞應用為例統計值之比較：以中文斷詞應用為例林筱晴陳信希國立台灣大學資訊工程學系 hclin@.tw; hhchen@.tw 摘要摘要 . 近年來全球資訊網(World Wide Web ，簡稱Web)快速成長，不同來源、不同領域、不摘要摘要同媒體的資訊透過網路傳遞到使用者手上。Web除了扮演資訊傳播的角色外，也可以被視為是一個超大的資料集，提供語料庫為基礎－統計導向方法(Corpus-Based Statistics-Oriented Approach) 所需要的統計值。本文以中文斷詞應用為例，由傳統語料庫和全球資訊網中，取得運用 word-based n-gram model解斷詞歧義時所需要的統計值，藉以比較傳統語料庫和全球資訊網的差異。在第一組實驗，我們假設完全沒有未知詞，運用傳統語料庫的統計值最佳，其次依序為 Google 為基礎、 AltaVista 為基礎、和 Openfind 為基礎。在第二組實驗，我們針對指定實體辨識，地名和組織名這兩類有不錯的效能。在第三組實驗，我們整合斷詞系統與指定實體辨識模組，全球資訊網統計值比傳統語料庫的統計值好。在最後一組實驗，我們將傳統語料庫和全球資訊網混合在一起，以全球資訊網統計值解決未知詞問題，再以語料庫統計值解斷詞歧義性，實驗顯示具有最佳的斷詞效能。 1. 緒論緒論緒論緒論在統計式自然語言處理 (statistical natural language processing) ，語言模型的設計、和統計值的來源是兩個實驗成功不可缺少的要件。因為語言是 “活的 ”(live) ，在日常生活中不斷有新的辭彙、和新的用法產生，系統必須能及時反應新的語言現象，因此使用具有時效性的資源非常重要。對於傳統語料庫而言，資料量規模固定、內容領域變動小、時效性較弱是其缺點，但優點是可以先加上標記(tagging) ，增加附加價值，同時可以直接透過程式，精確掌握所需要的統計資訊。相對地，全球資訊網 (World Wide Web ，簡稱Web)擁有十分龐大的資訊量、收集各種不同種類的文件、動態性等優點，但缺點是沒有加上語言標記，通常需要透過搜尋引擎 (search engine)取得統計資訊，容易受到搜尋引擎本身設計上的限制 (例如，文件索引的方式、查詢詞彙處理等) 。本文將 Web 視為一個資料量龐大、且具時效性的語料庫，研究如何利用網路上的資訊來訓練統計式語言模型，並與傳統語料庫比較。近年來，運用Web 於自然語言處理，有些相關論文發表。Zhu 和 Rosenfeld (2001)運用 Web改善 trigram model ，Computational Linguistics 期刊(2003)也發行專刊探討這個課題，Resnik 和 Smith (2003) 將 Web 視為平行語料庫，提供翻譯模型所需要的雙語句子。 Keller 和 Lapata (2003)說明由語料庫和 Web 上所擷取的英文 bigram 統計值是有關聯性，但顯而易見這項理論在中文上，由於斷詞的問題，不見得就成立。中文斷詞在中文自然語言處理上是個基本的工作，許多自然語言處理應用都以斷詞作為前置處理，例如機器翻譯、問答系統、自動摘要等。歧義性是中文斷詞系統第一個必須解決的問題，由於中文字串可能有多種不同的斷詞組合，斷詞系統必須選出其中最好的一種斷詞方式。另外，受限於辭典覆蓋度的問題，未知詞處理也是必要的工作。而指定實體(named entities ，簡稱NE) 是常見的未知詞，一般斷詞系統都會輔以指定實體辨識模組，提出策略自動辨識出人名、地名、和組織名等的存在 (Chen, Ding 和 Tsai, 1998; Chen, Yang 和 Lin, 2003) 。本文以中文斷詞系統為例，以統計式語言模型作為基礎，將 Web 統計資訊應用在中文斷詞上。透過對搜尋引擎查詢，所傳