第四节词性标注的方法.pptVIP

  • 22
  • 0
  • 约3.22千字
  • 约 22页
  • 2016-12-02 发布于天津
  • 举报
第四节词性标注的方法

第四节 词性标注的方法 授课人:徐艳华 授课时间:2006年11月20日 内容摘要 基于规则的方法 基于统计的方法 规则和统计相结合的方法 一、基于规则的标注方法 (一) 标注规则的类型 基于规则的标注方法主要是利用上下文的词语、词类等信息来确定当前词(兼类词)的词性。按照所作用的对象,标注规则可分为以下几种: 第一,针对特定词的,作用对象往往是特定的高频兼类词,如“了”(助词兼语气词兼动词),可根据前面出现的是否谓词,后面是否句尾标志等上下文信息来选择合适的标记。 第二,针对特定兼类模式的,例如,“动词-形容词”兼类词前面出现程度副词时应选择形容词标记。 第三,针对特定词类序列的,例如v{p,u,a}表示三种合法的词类序列,即“动词+介词”、“动词+助词”和“动词+形容词”,文本中的词类序列为“有/v+怪/a-d-v+招/n”,其中“怪”是当前词,兼属形容词、副词和动词,跟规则中的词类序列匹配,可知应选择标记a,即把“怪”标注为形容词。 在一个基于规则的标注系统中,我们总是希望每条规则的效用都比较高。规则的效用可从两个方面来衡量,即规则的正确率和覆盖率。正确率可表示为规则成功次数除以规则运用次数;覆盖率可表示为规则运用次数除以兼类词的总词次。显然,针对特定词的消歧规则,其正确率一般较高,但覆盖率可能较低;针对特定兼类模式或特定词类序列的消歧规则,其覆盖率较高,

文档评论(0)

1亿VIP精品文档

相关文档