- 9
- 0
- 约2.37千字
- 约 25页
- 2016-09-14 发布于天津
- 举报
第4章中文文本歧義字段切分技術
中文文本歧義字段切分技術 Introduction 從人類大腦對一個語串的理解過程來看,語句切分需要反復驗證的過程。 首先假設一種切分段,進一步考慮詞語的意義和語句的用語環境等知識。如果切分合理有意義,那麽這種切分的語句可得到理解。如果不合理,那麽回頭看看有沒有另一種可能的切分,有則繼續進行假設檢驗的過程,直至找到認為合理的切分。 人類大腦還允許兩種或多種切分的合理存在,或已經無法切分的語句。 歧義分類 Graduate Institute of Electrical Engineering Pervasive and Embedded Computing Lab Graduate Institute of Electrical Engineering Pervasive and Embedded Computing Lab 林家興 從切分處理的角度來看,切分歧義分爲交集型歧義、組合型歧義和混和型歧義。 假設“ABC”是一個由A、BC三個漢字構成的字串,如果 “AB”、“BC”都是詞,那麽電腦在切分時可以把“ABC”切分爲“AB/C”,也可以切分爲“A/BC”。這種切分歧義稱爲交集型歧義。 如果“AB”是詞、“ABC”也是詞,那麽産生的切分歧義稱爲組合型歧義。 混和型歧義是包含交集型歧義和組合型歧義的切分歧義。 歧義分類(1) 1)交集型歧義欄
原创力文档

文档评论(0)