自然语言处理4 隐马尔可夫模型与序列标注.docxVIP

下载本文档

8
0
约9.33千字
约 9页
2023-08-14 发布于江苏
举报

自然语言处理4 隐马尔可夫模型与序列标注.docx

4. 隐马尔可夫模型与序列标注第3章的n元语法模型从词语接续的流畅度出发，为全切分词网中的二元接续打分，进而利用维特比算法求解似然概率最大的路径。这种词语级别的模型无法应对 OOV(Out of Vocabulary，即未登录词) 问题: 00V在最初的全切分阶段就已经不可能进人词网了，更何谈召回。例如下面一句：头上戴着束发嵌宝紫金冠，齐眉勒着二龙抢珠金抹额加粗的就是相对陌生的新词，之前的分词算法识别不出，但人类确可以，是因为读者能够识别“戴着”，这些构词法能让人类拥有动态组词的能力。我们需要更细粒度的模型，比词语更细粒度的就是字符。具体说来，只要将每个汉字组词时所处的位置(首尾等)作为标签，则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言，由字构词是序列标注模型的一种应用。在所有“序列标注”模型中，隐马尔可夫模型是最基础的一种。 4.1 序列标注问题序列标注指的是给定一个序列，找出序列中每个元素对应标签的问题。其中，y 所有可能的取值集合称为标注集。比如，输入一个自然数序列，输出它们的奇偶性。求解序列标注问题的模型一般称为序列标注器，通常由模型从一个标注数据集中学习相关知识后再进行预测。再NLP问题中，x 通常是字符或词语，而 y 则是待预测的组词角色或词性等标签。中文分词、词性标注以及命名实体识别，都可以转化为序列标注问题。序列

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自然语言处理4 隐马尔可夫模型与序列标注.docxVIP