中文信息处理复习提纲.创新.pptVIP

下载本文档

10
0
约1.19万字
约 79页
2016-02-06 发布于湖北
举报

中文信息处理复习提纲.创新.ppt

* 现有分词歧义消解方法的不足交集型歧义消解基于记忆的方法简单有效，但这是一种颗粒度极细的语言知识，难以大幅度提高其覆盖度（据报道只能覆盖50%）。基于词频的方法没有考虑单字词词频，有时会导致错误的选择。组合型歧义消解穷尽组合型歧义字串是一个困难的任务。每种组合型字串的歧义消解知识都是个性化的，无法推广到其他字串。 * N元模型（Ngram） N元模型认为，状态序列中的某个状态是否出现，只与它前面的N－1个状态有关（马尔科夫假设）。 N元模型求序列W的概率时，是在概率乘法定理基础上的简化。大大减少了计算量，缓解了数据稀疏问题。马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点，但同时也是为了实用而付出的必要代价。 * Ngram举例从词串“提高人民生活水平”中，可提取： Bigrams：提高人民，人民生活，生活水平 Tigrams：提高人民生活，人民生活水平从字串“提高人民生活水平”中，可提取： Bigrams：提高，高人，人民，民生，生活，活水，水平 Tigrams：提高人，高人民，人民生，民生活，生活水，活水平 * N元模型可以做什么？ N元模型用于解决序列构成问题。例如：汉字识别后处理，由于每个位置上是什么汉字都可能有多种选择，因此可构成多种汉字序列。问题是，哪种汉字序列是正确的？中文自动分词，由哪些候选词构成词

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文信息处理复习提纲.创新.pptVIP