词性标注的方法.PPTVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词性标注的方法

第四节 词性标注的方法 授课人:徐艳华 授课时间:2006年11月20日 内容摘要 基于规则的方法 基于统计的方法 规则和统计相结合的方法 一、基于规则的标注方法 (一) 标注规则的类型 基于规则的标注方法主要是利用上下文的词语、词类等信息来确定当前词(兼类词)的词性。按照所作用的对象,标注规则可分为以下几种: 第一,针对特定词的,作用对象往往是特定的高频兼类词,如“了”(助词兼语气词兼动词),可根据前面出现的是否谓词,后面是否句尾标志等上下文信息来选择合适的标记。 第二,针对特定兼类模式的,例如,“动词-形容词”兼类词前面出现程度副词时应选择形容词标记。 第三,针对特定词类序列的,例如v{p,u,a}表示三种合法的词类序列,即“动词+介词”、“动词+助词”和“动词+形容词”,文本中的词类序列为“有/v+怪/a-d-v+招/n”,其中“怪”是当前词,兼属形容词、副词和动词,跟规则中的词类序列匹配,可知应选择标记a,即把“怪”标注为形容词。 在一个基于规则的标注系统中,我们总是希望每条规则的效用都比较高。规则的效用可从两个方面来衡量,即规则的正确率和覆盖率。正确率可表示为规则成功次数除以规则运用次数;覆盖率可表示为规则运用次数除以兼类词的总词次。显然,针对特定词的消歧规则,其正确率一般较高,但覆盖率可能较低;针对特定兼类模式或特定词类序列的消歧规则,其覆盖率较高,但正确率可能较低。 规则集较大时,规则之间的冲突是难免的。例如,“数词+量词”和“副词+介词”都是合法的词类序列,那么,文本中的“一把”到底应标注为哪种词类序列呢?此时,应该根据规则的正确率、覆盖率等因素来确定规则使用的先后顺序。 (二)基于规则的标注方法的优点 可以充分而有效率地利用各种上下文信息 。所谓“充分”,是说无论相关词跟当前词相隔多远都可以利用;所谓“有效率”,是说可以只把跟当前词消歧有关的词写进规则的条件部分。 不存在数据稀疏问题,标注正确率跟训练语料无关。 (三)基于规则的标注方法的缺点 建立规则集需要专家知识,投入较多的人力; 不容易写出覆盖率低但正确率高的规则,这种规则表达颗粒度小的语言知识,小颗粒度的语言知识大量存在并且往往被专家所忽视。 二、基于统计的标注方法 先来看一个例子,“把门锁好”是一个长度为4的词串,其中“把”是介词(p)兼量词(q)兼动词(v)兼名词(n),“门”是名词(n)兼量词(q),“锁”是名词(n)兼动词(v),“好”是形容词(a)兼动词(v)兼副词(d)。用W表示词串,C表示对应的词性标记串,显然,由于兼类词的存在,C不是唯一的,原则上可以有4×2×2×3=48种可能的标记串。 基于统计的词性标注方法,可以看成是从多条路径中选择一条最佳路径的过程。一条路径由若干条边组成,每条边都有一个对应的权值。这个权值如果是一次状态转移的概率乘以词典概率,那么最佳路径就是各边权值乘积最大的路径;如果是转移概率的负对数加词典概率的负对数,那么最佳路径就是各边权值之和最小的路径。为了避免乘法的下溢,一般采用后一种权值来计算,这种权值叫做“费用”。 例如,“把门锁好”有48条路径,每条路径都是由四条边组成,每计算一条路径的费用需要做3次乘法、3次加法和3次对数运算,最后还要做47次比较运算,算法的效率太低。这个问题可用多阶段决策过程的动态规划方法来解决。最佳路径有一个重要特征:如果从起点A经过P,H到达终点G是一条最佳路径,那么,由P出发经过H到达终点G所走的这条子路径,对于从P出发到终点G的所有可能的不同路径来说,必定也是最佳路径。 换言之,全局最佳的路径必定局部最佳(但局部最佳未必全局最佳)。这一特征使得我们可以逐段计算最佳子路径,每增加一个词,都把它跟前面计算的最佳路径连接起来,到最后一段时,只要看看作为终点的词谁的累计费用最小就行了。这样我们甚至不需要把所有的可能路径都列出来再寻找最佳路径。仍然用前面的例子来加以说明: 把 门 锁 好 p a o q n n v v q v d n 步骤二:计算从“把”的每个结点到“门”的每个结点的费用,共有8条边,每条边的累计费用各是由两条边的费用相加而成。“门”的每个结点有4条边,其中累计费用最小的那条边所对应的“把”的某个结点就是“门”的这个结点的最佳前驱。例如,“门(n)”的最

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档