自然语言处理基础及应用课件 (6).pptxVIP

下载本文档

0
0
约7.7千字
约 71页
2025-12-17 发布于广东
举报
版权申诉

自然语言处理基础及应用课件 (6).pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高等学校自然语言处理课程教材（这里根据情况修改）自然语言处理基础应用李妍吕慧周庆国/主编李芬芳多拉/副主编

第6章序列标注高等学校自然语言处理课程教材CONTENTS目录6.16.26.36.4序列标注概述序列标注算法和模型分词与词性标注实战实例：基于人民日报标注语料库的命名实体识别6.5本章小结6.6习题

本章学习目标第6章序列标注了解序列标注的基本概念，以及分词、词性标注、命名实体识别的基本概念。掌握序列标注算法和模型的理论基础及其编程实现。了解分词和词性标注任务常见的数据集，掌握开源分词和词性标注工具的使用方法。掌握序列标注模型的评测方法和注意事项。

6.1序列标注概述?第6章序列标注?

6.1序列标注概述假定有一个分类器可以正确地对输入文本的每一个汉字进行分类，那么通过这个分类器可以得到一个带有标签的文本序列，带有标签的文本序列将被处理为分词的目标形式，过程如图6-1所示。第6章序列标注

6.2序列标注算法和模型目前，序列标注主流的研究方法包括：第一，基于规则的方法，这种方法以词典匹配为主；第二，基于统计的方法，包括隐马尔可夫模型（hiddenmarkovmodel，HMM）、条件随机场（conditionalrandomfield，CRF）模型等；第三，基于深度学习的方法，这种方法一般使用深度学习模型，例如BiLSTM-CRF模型。这3种方法各有利弊，下面将对它们分别进行介绍。第6章序列标注

6.2序列标注算法和模型?第6章序列标注6.2.1基于规则的序列标注算法

6.2序列标注算法和模型逆向最大匹配算法是一种常用的基于规则的分词算法，它从句尾开始与词典中的词进行匹配，将句子拆分成一个个最大长度的词，直到句首。下面是一个使用Python实现的逆向最大匹配算法示例，代码如下。第6章序列标注6.2.1基于规则的序列标注算法

6.2序列标注算法和模型第6章序列标注6.2.1基于规则的序列标注算法

6.2序列标注算法和模型基于统计的序列标注模型是一种利用统计方法对输入的观测序列进行标注的模型。以分词任务为例，基于统计的分词算法的核心是词是稳定的组合，即在上下文中，相邻的字同时出现的次数越多，这两个字就越有可能构成一个词。因此字与字相邻出现的频率能较好地反映成词的可信度。通过对训练文本中相邻的各个字的组合的出现频率进行统计，可以计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度，当紧密程度高于某一个阈值时，便可以认为此字组可能构成一个词。第6章序列标注6.2.2基于统计的序列标注模型

6.2序列标注算法和模型1.BMES标注法第6章序列标注6.2.2基于统计的序列标注模型在序列标注任务中，需要根据具体任务选择合适的标注方法，将语言学问题转换成更易于建模的问题。依然以分词任务为例，读者可以采用BMES标注法。BMES标注法认为每个字的词位有4种情况：词首标签为B（begin）、词尾标签为E（end）、词中标签为M（middle）、单字成词标签为S（single）。对句子中的每个字赋予一个词位，即B、M、E、S中的一个标签，以句子“发扬以爱国主义为底色的科学家精神”为例，结果如下：此外还有BIO、BIOSE、IOB、BILOU、BMEWO等标注法，其中前3种标注法十分常见。各种标注法大同小异，读者可根据数据情况自行选择。

6.2序列标注算法和模型至此，标注法成功地将语言学问题转换为了更加容易建模的序列标注问题，接下来可以用最大熵模型（maximumentropymodel，MaxEnt）为每个字进行标签分类；也可以利用HMM模型将其看作解码问题；还可以考虑句子间的时序关系，利用CRF模型建模。第6章序列标注6.2.2基于统计的序列标注模型2.HMM和CRF模型（1）HMMHMM是可用于标注问题的统计学习模型，属于经典的机器学习模型。该模型描述的是由隐藏的马尔可夫链随机生成观测序列的过程，属于生成模型。HMM在语音识别、NLP、生物信息、模式识别等领域有着广泛的应用。该模型可以简单记忆为“1个模型、2个假设、3个问题”，具体内容如下。

6.2序列标注算法和模型①1个模型。HMM如图6-2所示。第6章序列标注6.2.2基于统计的序列标注模