输入法中统计语言模型的建立以及平滑（java版）.docVIP

下载本文档

56
0
约3.87千字
约 6页
2016-03-19 发布于安徽
举报

输入法中统计语言模型的建立以及平滑（java版）.doc

输入法中统计语言模型的建立以及平滑（java版）目前正在编写手机平台上的输入法，在输入法中要向实现句子级别的智能输入，必须借助统计语言模型，依靠统计语言模型中的词概率值，输出最可能的句子。下面将介绍统计语言模型的建立以及平滑。目前输入法中常用的语言模型有trigram（三元）和bigram（二元），其中微软拼音、智能狂拼使用的是trigram，谷歌拼音、搜狗拼音和紫光则是bigram。本文以二元模型为例来说明模型的建立和平滑。下面分三个方面来介绍：语料库的预处理模型的建立模型的平滑一．语料库的预处理原始语料库来源于北京大学语言研究所提供的98年1月人民日报标注语料。下载的已切分的语料都是形如04-012-001/m现实/n的/u顿悟/vn却/d被/p描/v出/v形/Ng来/v。/w”，有的前面还保留了日期编号，因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句，句子简单定义为（。？！：；）这五种标点符号结尾的词串，句子首尾分别添加和这两个表示句子开始和结束的标记，这在2-gram建模时要用的，后面会提到。处理过程中，忽略词类信息和前面的日期信息，因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式“现实的顿悟却被描出形来。”，当然切分词之间你可以用你想用的符号

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

输入法中统计语言模型的建立以及平滑（java版）.docVIP