第3章信息处理用现代汉语分词词表的收词原则和方法.ppt

第3章信息处理用现代汉语分词词表的收词原则和方法.ppt

第3章信息处理用现代汉语分词词表的收词原则和方法

信息處理用現代漢語分詞詞表的收詞原則和方法 Speaker:資工所 何信瑩 * Outline Motivation 研製《分詞詞表》的原則 《分詞詞表》選詞範圍 《分詞詞表》選詞方法 * Motivation 目前計算機分詞單位的主要依據為《分詞規範》 《分詞規範》 為現代漢語信息處理提供一套標準的分詞規則 需要一個實例化的詞表,作為《分詞規範》的細化和補充分詞詞表 * 研製《分詞詞表》的原則 以現有的《分詞規範》作為自動分詞的基本準則 利用“經驗+統計”方法進行收詞 在經驗的基礎之下,結合語料庫的統計方法 * 研製《分詞詞表》原則 (cont.) “詞”的概念 構詞格式 ex. 名詞的常見構詞結構: 1. 單音節N + 單音節N:蛋 餅 2. 單音節N + 雙音節N:手 指甲 3. 雙音節N + 單音節N:鐵板 麵 4. 雙音節V + 單音節N:水煮 蛋 * 《分詞詞表》選詞範圍 根據經驗從字典挑選部分詞作為《分詞詞表》的基本組成部分 字典中未收錄的詞 能見字明義的詞 (ex. 小冊子) 相近之詞 (ex. 小數 V.S. 小數點) * 《分詞詞表》選詞範圍(cont.) 字典中未收錄,但常用於日常生活的詞 1. 專有名詞、術語 2. 外來語、方言 3. 成語 4. 慣用語、諺語、格言、簡稱用語 ex. 半瓶醋、名師出高徒 5. 漢字

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档