《统计自然语言处理与信息检索》第5讲词义消歧.pptVIP

《统计自然语言处理与信息检索》第5讲词义消歧.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * 语义数目的确定 通过在一定的语义数目K内运行算法,可以选择歧义词语义分类的粒度: 如果似然对数值增加幅度明显,则这个新的语义数目是可取的 无监督消歧的一大优点 适合区分有细微差别的语义用法,这些细微差别在词典中找不到 如:bank的语义在bank robberies的上下文中是银行实体,在corporate mergers的上下文中是抽象团体,二者之间区别很小,甚至在词典中没有反映出来 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 基于词典的消歧 基于语义定义的消歧 基于类义辞典的消歧 在第二语言语料库翻译基础上的消歧 每篇文本一个语义,每个搭配一个语义 基于语义定义的消歧 词典中词条本身的定义就可以作为判断其语义的一个很好的依据条件 设cone的两个定义如下: a mass of ovule-bearing or pollen-bearing scales of bracts in trees of the pine family or in cycads that are arranged usually on a somewhat elongated axis, something that resembles a cone in shape: as…a crisp cone-shaped wafer for holding ice cream 如果tree或ice和cone 出现在相同上下文中,可以说明cone的语义就是那个包含着该词的辞典定义语义:tree对应语义1,ice对应语义2 ?? 算法 基于词典释义的WSD方法的算法描述 1) 一个多义词有若干义项 ; 2) 多义词的每个义项 在词典中分别有一个释义 ,每个释义 实际上代表了一组出现在该释义中的词 ; 3) 多义词在一个具体的上下文(C)中出现时,前后有一些词 ,这些词将作为判定该多义词意思的上下文特征词 ; 4) 每个特征词 在词典中也分别有释义 ,每个释义 实际代表了一组出现在该释义中的词 。 5) 当要判断一个多义词在具体语境中的义项时,就对该多义词的每个义项 ,计算: 即 ,取 最大值所对应的 ,作为该多义词的义项。 基于词典释义的WSD方法示例 多义词pen:The sheep has been penned for three days. 在pen的上下文中只有sheep这个词的释义跟pen的一个释义有交集词 Score(s1)=0 Score(s2)=2 ? 取S2 基于词典释义的WSD方法小结 用词典资源进行词义排歧,是利用词典中对多义词的各个义项的描写,而这些描写是在语言学家观察了多义词的不同使用情况后概括归纳,抽象总结的结果。只不过跟实际语料不同的是,它是以一种概括的方式在描写词义,而语料库是以具体可感知的大量重复的实例本身在描写词义。 由于词典释义的概括性,这种方法应用于实际语料中多义词的排歧,效果不理想。 基于义类词典的消歧 语义范畴(semantic categorization)信息:由义类词典或类似Longman的带有主题范畴(subject categories)的词典提供 原理:上下文中词汇的语义范畴大体上确定了此上下文的语义范畴,且上下文的语义范畴可以反过来确定词汇的哪一个语义被使用 比如英语词“crane”有两个意思,一是指“吊车”,一是指“鹤”。前者属于“工具/机械”这个义类;后者属于“动物”这个义类。如果能够确定“crane”出现在具体语境中时属于哪个义类,实际上也就知道了“crane”的义项。 一个简单消歧算法 假设已有一个义类词典,并为其中每个词指定一个或多个主题码,而不同的主题码对应于词语的不同语义。 设为上下文中歧义词 的语义 的主题码,那么,通过统计类义词典中可以把 列为可能主题的上下文词的个数,即可对 进行消歧。 在上述算法中,如果 也是 的主题码,则

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档