中文信息處理現代漢語詞彙研究第五章詞的概率語法屬性描述研究及其成果.pptVIP

  • 3
  • 0
  • 约1.78千字
  • 约 15页
  • 2017-12-10 发布于湖北
  • 举报

中文信息處理現代漢語詞彙研究第五章詞的概率語法屬性描述研究及其成果.ppt

中文信息處理現代漢語詞彙研究第五章詞的概率語法屬性描述研究及其成果

中文信息處理現代漢語詞彙研究 第五章 詞的概率語法屬性描述研究及其成果 許珮薰 May 17, 2007 漢語語法特點 語言單位 詞的形態變化 虛詞 句法結構 時態、語態和語氣 形式和意義的對應 詞語分類 研究目標 帶詞性的詞頻統計 兼類詞的分佈概率 詞的語法屬性的概率值描述 分析資料來源 1995~2000年共計1.5億字《人民日報》語料 《語法信息辭典》 帶詞性的詞頻統計 詞頻統計 詞語+拼音+詞類 = primary key 全年頻度 觀察頻度在各月分佈 判別重要性、通用性 摘要 前40個高頻詞中,虛詞有11個,廣義虛詞有20個 名詞在一定程度上能反映文章內容,這裡出現:中國、經濟、國家…。反應做為中國主流平面媒體的特點。 總次數不足以判定詞的通用程度,頻次高且分佈均勻的詞才是更通用、更重要的詞。 分佈均勻度 (Distributed Consistency) 將語料庫的詞語集合S劃分為n個大小相同的子集: 詞語 在這些子集中的頻度為 分佈均勻度 均勻度只依賴於一個詞在語料庫的各子集中的頻次,與詞彙全集的確定以及其他詞的頻次無關。 兼類詞的分佈概率 同一詞有不同詞性 例如:『在』兼屬介詞、動詞和副詞。 詞的語法屬性的概率值描述 屬於同一類的詞也有很多不同的屬性 例如:部分的動詞可以受副詞”很”修飾 詞語語法屬

文档评论(0)

1亿VIP精品文档

相关文档