汉语分词 汉语分词 主要内容 分词歧义 分词规范 主要分词方法 生词识别 分词的提出和定义 汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题 添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词 分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) 分词面临的主要难题 如何面向大规模开放应用是汉语分词研究亟待解决的主要问题 如何识别未登录词 如何低廉地获取语言学知识 词语边界歧义处理 实时性应用中的效率问题 分词歧义 交集型切分歧义 组合型切分歧义 交集型切分歧义 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。 [例] “结合成分子” 结合 | 成 分|子 | 结合|成|分子| 结 | 合成 |分子| [例] “美国会通过对台售武法案” [例] “乒乓球拍卖完了”

文档评论(0)

1亿VIP精品文档

相关文档