自然语言处理4 隐马尔可夫模型与序列标注.docxVIP

  • 8
  • 0
  • 约9.33千字
  • 约 9页
  • 2023-08-14 发布于江苏
  • 举报

自然语言处理4 隐马尔可夫模型与序列标注.docx

4. 隐马尔可夫模型与序列标注 第3章的n元语法模型从词语接续的流畅度出发,为全切分词网中的二元接续打分,进而利用维特比算法求解似然概率最大的路径。这种词语级别的模型无法应对 OOV(Out of Vocabulary,即未登录词) 问题: 00V在最初的全切分阶段就已经不可能进人词网了,更何谈召回。 例如下面一句: 头上戴着束发嵌宝紫金冠,齐眉勒着二龙抢珠金抹额 加粗的就是相对陌生的新词,之前的分词算法识别不出,但人类确可以,是因为读者能够识别“戴着”,这些构词法能让人类拥有动态组词的能力。我们需要更细粒度的模型,比词语更细粒度的就是字符。 具体说来,只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是序列标注模型的一种应用。 在所有“序列标注”模型中,隐马尔可夫模型是最基础的一种。 4.1 序列标注问题 序列标注指的是给定一个序列 ,找出序列中每个元素对应标签 的问题。其中,y 所有可能的取值集合称为标注集。比如,输入一个自然数序列,输出它们的奇偶性。 求解序列标注问题的模型一般称为序列标注器,通常由模型从一个标注数据集 中学习相关知识后再进行预测。再NLP问题中,x 通常是字符或词语,而 y 则是待预测的组词角色或词性等标签。中文分词、词性标注以及命名实体识别,都可以转化为序列标注问题。 序列

文档评论(0)

1亿VIP精品文档

相关文档