中文信息处理复习提纲.创新.pptVIP

  • 10
  • 0
  • 约1.19万字
  • 约 79页
  • 2016-02-06 发布于湖北
  • 举报
中文信息处理复习提纲.创新.ppt

* 现有分词歧义消解方法的不足 交集型歧义消解 基于记忆的方法简单有效,但这是一种颗粒度极细的语言知识,难以大幅度提高其覆盖度(据报道只能覆盖50%)。 基于词频的方法没有考虑单字词词频,有时会导致错误的选择。 组合型歧义消解 穷尽组合型歧义字串是一个困难的任务。 每种组合型字串的歧义消解知识都是个性化的,无法推广到其他字串。 * N元模型(Ngram) N元模型认为,状态序列中的某个状态是否出现,只与它前面的N-1个状态有关(马尔科夫假设)。 N元模型求序列W的概率时,是在概率乘法定理基础上的简化。大大减少了计算量,缓解了数据稀疏问题。 马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点,但同时也是为了实用而付出的必要代价。 * Ngram举例 从词串“提高 人民 生活 水平”中,可提取: Bigrams:提高 人民,人民 生活,生活 水平 Tigrams:提高 人民 生活,人民 生活 水平 从字串“提高人民生活水平”中,可提取: Bigrams:提高,高人,人民,民生,生活, 活水,水平 Tigrams:提高人,高人民,人民生,民生活, 生活水,活水平 * N元模型可以做什么? N元模型用于解决序列构成问题。例如: 汉字识别后处理,由于每个位置上是什么汉字都可能有多种选择,因此可构成多种汉字序列。问题是,哪种汉字序列是正确的? 中文自动分词,由哪些候选词构成词

文档评论(0)

1亿VIP精品文档

相关文档