第六讲 计算语言学.pptVIP

  • 15
  • 0
  • 约1.28万字
  • 约 92页
  • 2016-06-08 发布于湖北
  • 举报
* * * * 利用前趋字串和后继字串在词法、句法、语义、语用三方面的信息排除歧义 利用词法信息 湖上有几只美丽的白天鹅 加入规则:“如果交段与其后继字串组成名词,则将该歧义词首字单切,否则,确认该歧义词为词” 利用语义信息 例:学生会兴奋得手舞足蹈 学生/会/兴奋/得/手舞足蹈 学生会/兴奋/得/手舞足蹈 加入规则 “如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素,则歧义字段的尾字单切,否则该歧义字段成词” 利用语用信息 日本保留和尚使用的古代庙宇已经不多了 乒乓球拍卖完了 美国会通过对台售武法案 3、基于统计的分词方法 :通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。 但是也有缺陷,如:了解答题的方法、他想出了解答的办法。 (三)、自动分词的问题: 1、歧义字段 (1)交集型歧义字段:汉字串AJB被称作交集型切分歧义,如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。 〔例〕“结合成” :结合/成,结/合成 让位移等于50厘米(让位移:让位/移、让/位移) 这种歧义字段占全部歧义字段的85%以上。 交集型歧义字段的消解: 伪歧义:虽然有

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档