第3章信息处理用现代汉语分词词表的收词原则和方法
信息處理用現代漢語分詞詞表的收詞原則和方法 Speaker:資工所 何信瑩 * Outline Motivation 研製《分詞詞表》的原則 《分詞詞表》選詞範圍 《分詞詞表》選詞方法 * Motivation 目前計算機分詞單位的主要依據為《分詞規範》 《分詞規範》 為現代漢語信息處理提供一套標準的分詞規則 需要一個實例化的詞表,作為《分詞規範》的細化和補充分詞詞表 * 研製《分詞詞表》的原則 以現有的《分詞規範》作為自動分詞的基本準則 利用“經驗+統計”方法進行收詞 在經驗的基礎之下,結合語料庫的統計方法 * 研製《分詞詞表》原則 (cont.) “詞”的概念 構詞格式 ex. 名詞的常見構詞結構: 1. 單音節N + 單音節N:蛋 餅 2. 單音節N + 雙音節N:手 指甲 3. 雙音節N + 單音節N:鐵板 麵 4. 雙音節V + 單音節N:水煮 蛋 * 《分詞詞表》選詞範圍 根據經驗從字典挑選部分詞作為《分詞詞表》的基本組成部分 字典中未收錄的詞 能見字明義的詞 (ex. 小冊子) 相近之詞 (ex. 小數 V.S. 小數點) * 《分詞詞表》選詞範圍(cont.) 字典中未收錄,但常用於日常生活的詞 1. 專有名詞、術語 2. 外來語、方言 3. 成語 4. 慣用語、諺語、格言、簡稱用語 ex. 半瓶醋、名師出高徒 5. 漢字
您可能关注的文档
- 科学计算选讲优化算法在并联机器人尺度综合中的应用董成林天津大学.doc
- 科普统计分析-陕西省科技情报学会.doc
- 磁共振硬件系统.ppt
- 科技创新前沿-泰安市科技局.pdf
- 科目名称:传播理论-行销传播管理研究所.doc
- 积与商的相对不确定度,等于各直接测量量的相对不确定度的方和根又.ppt
- 积温数据栅格化方法的实验-中国油料作物学报.pdf
- 称为总体参数的区间估计.ppt
- 移动互联网生态链竞争:“新三国”鼎立大一灵蛇之珠统难成.doc
- 称为检测系统测量值的引用误差γ.ppt
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
原创力文档

文档评论(0)