自然语言处理5 感知机分类与序列标注.docxVIP

  • 2
  • 0
  • 约4.27千字
  • 约 5页
  • 2023-08-14 发布于江苏
  • 举报

自然语言处理5 感知机分类与序列标注.docx

4.感知机分类与序列标注 第4章我们利用隐马尔可夫模型实现了第一个基于序列标注的中文分词器,然而效果并不理想。事实上,隐马尔可夫模型假设人们说的话仅仅取决于一个隐藏的{B.M,E,S序列,这个假设太单纯了,不符合语言规律。语言不是由这么简单的标签序列生成,语言含有更多特征,而隐马弥可夫模型没有捕捉到。隐马弥可夫模型能捕捉的特征仅限于两种: 其一,前一个标签是什么;其二,当前字符是什么。 为了利用更多的特征,线性模型( linear model )应运而生。线性模型由两部分构成: 一系列用来提取特征的特征函数 φ,以及相应的权重向量 w。 本章将深人讲解感知机算法的原理,以及在分类和序列标注上的应用。在序列标注应用部分,我们将实现基于感知机的中文分词器。由于感知机序列标注基于分类,并且分类问题更简单,所以我们先学习分类问题。 5.1 分类问题 定义 分类指的是预测样本所属类别的一类问题。二分类也可以解决任意类别数的多分类问题(one vs rest)。 将类型class1看作正样本,其他类型全部看作负样本,然后我们就可以得到样本标记类型为该类型的概率 p1。 然后再将另外类型class2看作正样本,其他类型全部看作负样本,同理得到 p2。 以此循环,我们可以得到该待预测样本的标记类型分别为类型 class i 时的概率

文档评论(0)

1亿VIP精品文档

相关文档