层叠隐马尔科夫模型学习.docVIP

下载本文档

5
0
约1.31千字
约 2页
2015-07-20 发布于安徽
举报

层叠隐马尔科夫模型学习.doc

基于层叠隐马尔可夫模型的中文分词系统基本流程为：汉字输入这是一个汉字序列，采用N最短路径寻优法找到N种最优的粗切分，并将结果保存到一个公共的数据结构里。根据词库，对于未查询到的词进行未登录词的生成，并将结果保存到词库复杂的未登录词同样处理细切分(Lexicalized HMM) 词性标记输出； 1粗切分阶段首先进行原子切分，也就是将单个汉字切分。根据词库字典，找出所有原子之间的组词方案。(这些不同的组词方案要存放在一个数据结构里面，这种数据结构要有深刻认识！) N-最短路径中文词语粗分。 1），2）为预处理阶段…… 问题是，如何根据词典，找出字典中可能的词，确定有向无环图中的边，并给这个边一个权值？我们引入词频这个概念，假设一个词wi ，词频信息记为P(wi) ，确定 p最大的N种粗分结果集！ W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果。wi 是一个词，P(wi)表示wi的出现的概率。在大规模的训练语库的基础上，根据大数定理，我们就可以对P(wi)进行极大似然估计 P(wi) ≈ki / （其中ki为wi在训练样本中出现的次数）字串 W=w1 w2……wm 中每个词出现的次数相加的和为在粗切分阶段，我们认为上下文之间是无关联的，也就是词与词之间不用去思考语义对它们出现概率的影响联合概率P(

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

层叠隐马尔科夫模型学习.docVIP