层叠隐马尔科夫模型学习.docVIP

  • 5
  • 0
  • 约1.31千字
  • 约 2页
  • 2015-07-20 发布于安徽
  • 举报
基于层叠隐马尔可夫模型的中文分词系统基本流程为: 汉字输入 这是一个汉字序列,采用N最短路径寻优法找到N种最优的粗切分,并将结果保存到一个公共的数据结构里。 根据词库,对于未查询到的词进行未登录词的生成,并将结果保存到词库 复杂的未登录词同样处理 细切分(Lexicalized HMM) 词性标记 输出; 1粗切分阶段 首先进行原子切分,也就是将单个汉字切分。 根据词库字典,找出所有原子之间的组词方案。(这些不同的组词方案要存放在一个数据结构里面,这种数据结构要有深刻认识!) N-最短路径中文词语粗分。 1),2)为预处理阶段…… 问题是,如何根据词典,找出字典中可能的词,确定有向无环图中的边,并给这个边一个权值? 我们引入词频这个概念,假设一个词wi , 词频信息记为P(wi) ,确定 p最大的N种粗分结果集! W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果。wi 是一个词,P(wi)表示wi的出现的概率。 在大规模的训练语库的基础上,根据大数定理,我们就可以对P(wi)进行极大似然估计 P(wi) ≈ki / (其中ki为wi在训练样本中出现的次数) 字串 W=w1 w2……wm 中每个词出现的次数相加的和 为 在粗切分阶段,我们认为上下文之间是无关联的,也就是词与词之间不用去思考语义对它们出现概率的影响 联合概率P(

文档评论(0)

1亿VIP精品文档

相关文档