基于WordNet地英语词语相似度计算.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于 WordNet 的英语词语相似度计算 颜伟 荀恩东 北京语言大学 语言信息处理研究所 北京 100083 E-mail: {yanwei,edxun}@blcu.edu.cn 摘要:本文主要介绍一种基于 WordNet 的英语词语相似度的实现方法,我们从 WordNet 中提取同义词并采取向量空间方法计算英语词语的相似度,我们的向量包括三方面: (1)WordNet 的同义词词集(Synset)(2) 类属信息(Class ) (3)意义解释(Sense explanation)。 实验结果表明这是计算英语词语相似度的一种可行的方法。 关键词:WordNet ,词语相似度 English Word Similarity Calculation Based on WordNet Yan Wei Xun Endong Language Information Processing Center Beijing Language and Culture University Beijing 100083 E-main: {yanwei,edxun}@blcu.edu.cn Abstract: In our approach, English WordNet is used as the general synonym resource. The algorithm extracts synonym and use vector based method to calculate the English word similarity. The vector includes three kinds of information.(1)WordNet synonym. (2) Class. (3)Sense explanation. It is a feasible way to calculate the similarity of the English words in the experiments. Keywords: WordNet, word similarity 1 引言 随着自然语言处理技术的发展,语义研究,特别是词汇语义研究,成为目前自然语言 处理领域的热点和前沿课题。本文介绍一种基于 WordNet 英语词语相似度计算的实现方 法,希望能对英语词语间语义关系进行一些数量化研究。同时也希望能对中文信息处理及 双语翻译提供一些方法和借鉴。 词语距离的计算方法大体上可以分成两类:一类是根据某种世界知识(ontology )来 计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资 源中概念之间的上下位关系和同位关系来计算词语的相似度。在这方面,许多学者已经基 于 WordNet 做了大量的工作。另一类方法利用大规模的语料进行统计,这种基于统计的方 法,主要将上下文信息的概率分布作为词汇语义相似度的参照。第一类方法建立在两个词 汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路这样 的假设的基础上。第二类方法建立在两个词汇具有某种程度的语义相似当且仅当它们出现 在相同的上下文中这个假设的基础上。 基于语义词典的方法通常依赖于比较完备的大型语义词典。一般同义词词典都是将所 有的词组织在一棵或几棵树状的层次结构中。我们知道,在一棵树形图中,任何两个结点 之间有且只有一条路径。于是,这条路径的长度就可以作为这两个概念的语义距离的一种 度量。如 Rada R. etc 和 Lee J.H. etc 通过计算在 WordNet 中词节点之间上下位关系构成的 最短路径来计算词语之间的相似度。有些学者考虑的情况更复杂。Resnik,P.根据两个词的 公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre Rigau (1995)在利用 WordNet 计算词语的语义相似度时,除了结点间的

文档评论(0)

133****0075 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档