第六讲计算语言学.pptVIP

下载本文档

15
0
约1.28万字
约 92页
2016-06-08 发布于湖北
举报

第六讲计算语言学.ppt

* * * * 利用前趋字串和后继字串在词法、句法、语义、语用三方面的信息排除歧义利用词法信息湖上有几只美丽的白天鹅加入规则：“如果交段与其后继字串组成名词，则将该歧义词首字单切，否则，确认该歧义词为词” 利用语义信息例：学生会兴奋得手舞足蹈学生/会/兴奋/得/手舞足蹈学生会/兴奋/得/手舞足蹈加入规则 “如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素，则歧义字段的尾字单切，否则该歧义字段成词” 利用语用信息日本保留和尚使用的古代庙宇已经不多了乒乓球拍卖完了美国会通过对台售武法案 3、基于统计的分词方法：通过对大规模真实文本的统计，让计算机自己判断什么是词，这样就产生了基于统计的分词方法，又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。但是也有缺陷，如：了解答题的方法、他想出了解答的办法。（三）、自动分词的问题： 1、歧义字段（1）交集型歧义字段：汉字串AJB被称作交集型切分歧义，如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。〔例〕“结合成” ：结合/成，结/合成让位移等于50厘米（让位移：让位/移、让/位移）这种歧义字段占全部歧义字段的８５％以上。交集型歧义字段的消解：伪歧义：虽然有

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第六讲计算语言学.pptVIP