英语的词法分析.ppt

英语的词法分析

切分标注略讲 ——借鉴《计算语言学》讲义 切分标注规范-1 分词规范——国家标准GB13715 切分与标注的北大规范 ——2001年版 《中文信息学报》2002年5,6两期连载 ——2003年版 新加坡《汉语语言与计算学报》2003年第2期 国家社科基金九五重大项目“信息处理用现代汉语词汇研究”之子课题“信息处理用现代汉语词类标记集规范”,已经作为国家标准申报待批。 “现代汉语语料库词性标注规范”(清华、北京语言文化大学) “关于汉语语料库语法标注的规定”(山西大学) “现代汉语词类标记集”(复旦大学) 切分标注规范-2 小标记集 词组(短语)本位 《现代汉语语法信息词典》 ① 切分规范 (成词) ② 切分和标注相结合的规范 (成新词) ③??标注规范 (标记) 切分歧义-1 泰国王批准他信任总理 泰国/ 王/ 批准/ 他/ 信任/ 总理/ 泰国/ 王/ 批准/ 他信/ 任/ 总理/ 泰/ 国王/ 批准/ 他信/ 任/ 总理/ 切分歧义-2 交叉歧义:ABC?AB/ C ;A/ BC/ 白天鹅 组合歧义:AB? AB ;A/ B/ 学会 混合型:ABC? ABC ;AB/ C/ ;A/ BC/; A/ B/ C/ ; 烤肉 饼 烤 肉饼 烤 肉 饼 切分实现方法概要 词表 (词条+必要的属性 ) 最长一致匹配算法 全切分加判断(统计模型或结构规则) 最长一致匹配算法 正向扫描:今天/ 真/ 热/ 从容/ 易/ 的/ 做/ 起/ 从小/ 学生/ 词典/ 学生/ 字/ 逆向扫描:今/ 天真/ 热/ 从/ 容易/ 的/ 做/ 起/ 从/ 小学生/ 词典/ 学/ 生字/ 双向扫描: 健康/ 的/ 人才/ 能/ 享受/ 人生 健康/ 的/ 人/ 才能/ 享受/ 人生 健康/ 的/ 人/ 才/ 能/ 享受/ 人生 新词发现 中文姓名 外文姓名 机构名 地名 切分评价 评价指标 仿信息检索: 召回率(recall) 正确率(precision) 词性标注 词表(词条+词性+必要的属性 ) 词的归类——语法理论 (主宾语位置上的动词算什么词? ) 兼类词的处理 “把” :p, q, v “教育”:v?v, vn 谢谢! * * 切分与词性标注 切分歧义 切分歧义 其他问题 生词:他信 标准本身的模糊: 泰国/ 王/ ? 泰/ 国王/ ? 批准人/ ? 批准/ 人/ ? Tokenization 输入文本 Token Buffer 将文本中的字符串切割为最基本的切分单位,包括汉字,数字,日期,ASCII码等等 基本切分标注过程 进行完全标注,将所有可能的切分结果都找出来 专有名词绑定 优先查找是否专有名词 词语网络——句子所有可能切分结果的结果构成一张网络,以指针连接 动态消歧 Word Buffer从候选结果的网络中选出的路径 Viterbi选优 * *

文档评论(0)

1亿VIP精品文档

相关文档