输入法中统计语言模型的建立以及平滑(java版).docVIP

  • 56
  • 0
  • 约3.87千字
  • 约 6页
  • 2016-03-19 发布于安徽
  • 举报

输入法中统计语言模型的建立以及平滑(java版).doc

输入法中统计语言模型的建立以及平滑(java版).doc

输入法中统计语言模型的建立以及平滑(java版) 目前正在编写手机平台上的输入法,在输入法中要向实现句子级别的智能输入,必须借助统计语言模型,依靠统计语言模型中的词概率值,输出最可能的句子。下面将介绍统计语言模型的建立以及平滑。 目前输入法中常用的语言模型有trigram(三元)和bigram(二元),其中微软拼音、智能狂拼使用的是trigram,谷歌拼音、搜狗拼音和紫光则是bigram。本文以二元模型为例来说明模型的建立和平滑。 下面分三个方面来介绍: 语料库的预处理 模型的建立 模型的平滑 一.语料库的预处理 原始语料库来源于北京大学语言研究所提供的98年1月人民日报标注语料。下载的已切分的语料都是形如04-012-001/m现实/n的/u顿悟/vn却/d被/p描/v出/v形/Ng来/v。/w”,有的前面还保留了日期编号,因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句,句子简单定义为(。?!:;)这五种标点符号结尾的词串,句子首尾分别添加和这两个表示句子开始和结束的标记,这在2-gram建模时要用的,后面会提到。处理过程中,忽略词类信息和前面的日期信息,因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式“现实的顿悟却被描出形来。”,当然切分词之间你可以用你想用的符号

文档评论(0)

1亿VIP精品文档

相关文档