基于《知网》的词汇语义相似度计算的研究与开发.docVIP

下载本文档

3
0
约1.21万字
约 14页
2017-09-08 发布于浙江
举报

基于《知网》的词汇语义相似度计算的研究与开发.doc

基于《知网》的词汇语义相似度计算刘群?? 李素建? {liuqun,lisujian}@ ? 中国科学院计算技术研究所 ? 北京大学计算语言学研究所摘要：《知网》是一部比较详尽的语义知识词典。在基于实例的机器翻译中，词语相似度计算是一个重要的环节。不过，由于《知网》中对于一个词的语义采用的是一种多维的知识表示形式，这给词语相似度的计算带来了麻烦。这一点与WordNet和《同义词词林》不同。在WordNet和《同义词词林》中，所有同类的语义项（WordNet的synset或《同义词词林》的词群）构成一个树状结构，要计算语义项之间的距离，只要计算树状结构中相应结点的距离即可。而在《知网》中词语相似度的计算存在以下问题：每一个词的语义描述由多个义原组成，例如“暗箱”一词的语义描述为：part|部件,%tool|用具,body|身,“写信”一词的语义描述为：#TakePicture|拍摄write|写,ContentProduct=letter|信件；词语的语义描述中各个义原并不是平等的，它们之间有着复杂的关系，通过一种专门的知识描述语言来表示。我们的工作主要包括：研究《知网》中知识描述语言的语法，了解其描述一个词义所用的多个义原之间的关系，区分其在词语相似度计算中所起的作用；提出利用《知网》进行词语相似度计算的算法；通过实验验证该算法的有效性，并与其他算法进行比较。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于《知网》的词汇语义相似度计算的研究与开发.docVIP