词性标注王跃光80课件讲解.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

词性标注主讲教师:王跃光

词性标注概述0203词性标注规范Jieba词性标注0104本讲小结

0101词性标注概述

词性标注概述词性标注是指为分词结果中的每个词标注一个词性的过程,也就是确定每个词是名词、动词、形容词或其他词性的过程。相对于英文词性标注,中文词性标注有一定的难度,这是因为中文不像英文可以通过词的形态变化判断词的词性。一个中文词可能有多种词性,在不同的句子中表现的意思也大不相同。例如,在“运动能使我快乐”这句话中,“运动”是名词,但是,在“我要好好运动”这句话中,“运动”是动词。

词性标注概述词性标注主要有基于规则和基于统计的标注方法:基于规则的标注方法是较早的一种词性标注方法,这种方法需要获取能表达一定的上下文关系及其相关语境的规则库。一个好的规则库的获取是比较困难的,主要的获取方式是通过人工编制繁杂的语法或语义信息的词典和规则系统,比较费时费力,并且难以保证规则的准确性。20世纪70年代末到80年代初,基于统计的词性标注开始得到应用。具有代表性的是基于统计模型的词性标注系统,通过概率统计的方法进行自动词性标注。基于统计的方法主要有基于最大熵的词性标注、基于统计最大概率输出的词性标注和基于隐马尔科夫模型(HMM)的词性标注。

词性标注概述基于规则的标注和基于统计的标注方法在使用的过程中,各有所长,但都存在一些缺陷。因此,就有了将基于规则与统计相结合的词性标注方法,此方法具有效率更高,处理能力强等特点。

02词性标注规范02

词性标注规范自然语言处理现代汉语中的词性可分为实词和虚词,共有12种词性。实词有名词、动词、形容词、代词、数词和量词;虚词有副词、介词、连词、助词、拟声词和叹词。名词是表示人和事物的名称的实词,动词表示人或事物的动作、行为、发展、变化,形容词表示事物的形状、性质、状态等。中文词性通常会通过一些简单字母编码对词性进行标注,如动词、名词、形容词分别用“v”“n”“adj”表示。事实上,中文的词性标注至今还没有统一的标注标准,使用较为广泛的有宾州树库和北大词性标注规范。下面介绍一下北大词性标注规范。

词性标注规范部分词性编码及注解如下表所示:编码词性名称注解n名词取英语名词noun的第1个字母v动词取英语动词verb的第1个字母a形容词取英语形容词adjective的第1个字母r代词取英语代词pronoun的第2个字母,因p已用于介词m数词取英语numeral的第3个字母,n和u已有它用q量词取英语quantity的第1个字母d副词取adverb的第2个字母,因a已用于形容词p介词取英语介词prepositional的第1个字母

词性标注规范编码词性名称注解c连词取英语连词conjunction的第1个字母u助词取英语助词auxiliary的第2个字母f方位词取汉字“方”的声母i成语取英语成语(idiom)的第1个字母ns地名名词代码n和处所词代码s并在一起前面表格中展示了部分词性标注的编码及其注解,通过这个标准可以对一些句子段落进行词性标注。

03Jieba词性标注03

Jieba词性标注Jieba词性标注是基于规则与统计相结合的词性标注方法。jieba词性标注与其分词的过程类似,其词性标注流程可概括为以下两个步骤:如果是汉字,那么将基于前缀词典构建有向无环图,对有向无环图计算最大概率路径,同时在前缀字典中查找所分词的词性。如果没有找到,那么将其标注为“x”,表示词性未知;如果在标注过程中标注为未知,并且该词为未登陆词,那么通过HMM(隐马尔可夫模型)进行词性标注。如果不是汉字,那么使用正则表达式判断词的类型,并赋予对应的词性,其中“x”表示未知词性,“m”表示数词,“eng”表示英文词。

04本讲小结04

本讲小结本节主要介绍一些词性标注与命名体识别相关的知识。首先介绍了词性标注概述。然后介绍了词性标注规范。最后介绍了Jieba词性标注。

词性标注主讲教师:王跃光

文档评论(0)

方世玉 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6101050130000123

1亿VIP精品文档

相关文档