- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于WordNet语义相似度改进算法
一种基于WordNet语义相似度改进算法
摘要:随着信息的快速发展,计算词语语义相似度在很多领域得到了广泛应用与研究,包括信息检索,信息抽取,词义排歧,基于实例的机器翻译,文本分类等等。本文在相关研究的基础上除了考虑路径外考虑了节点所在树中的深度和宽度,提出一种基于WordNet语义相似度的改进算法。
关键词:WordNet 语义距离 语义相似度
中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2013)08-0113-01
语义相似度计算在很多领域都有着广泛的应用,如自然语义处理,信息检索,词义排歧,文本分类以及基于实例的机器翻译等。随着Internet技术的高速发展,语义相似度成为信息检索研究的重要组成部分。当前语义相似度计算方法大致可以分为两类:一类是根据世界知识或者某种分类体系的方法来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度;第二类是基于统计的方法,主要将上下文信息的概率分布作为词汇语义相似度的参照。现有的研究中有的通过词结点之间上下位关系构成的最短路径计算语义相似度,文献[1-2]通过两个词的公共祖先结点的最大信息量计算语义相似度,文献[3-5]通过结合结点间的路径长度,概念层次树的深度,概念层次树的区域密度等因素综合考虑计算语义相似度。国外很多研究者利用WordNet中的同义词集组成的树状层次体系结构计算语义相似度。
1 WordNet简介
WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典,它不只把单词以字母顺序排列,而且按照单词的意义组成一个“网络”。由于包含了语义信息,所以WordNet有别于通常意义上的字典。
WordNet描述对象包括复合词、短语动词、搭配次词、成语、单词,其中单词是最基本的单位。描述对象被分为名词、动词、形容词、副词,它们各自被组织成一个同义词的网络,即有层次的树形结构,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也有各种关系连接。在WordNet中以名词为例最基础的语义关系是同义关系。Synset构成了树形结构中的每一个概念。除了上面提到的同义词关系WordNet中还有很多其他关系来表示不同概念之间的关系,例如上下位关系为如果同义词集合A的所有特征被包含在同义词集合B的特征集合中,那么B是A的下位概念,A是B的上位概念。比如“水果”和“苹果”,苹果包含了水果的所有特征,但是水果不具备苹果的独有特征,因此苹果是水果的子类是下位关系,而水果是苹果的父类是上位关系。
2 基于WordNet的概念语义相似度计算
由信息检索理论可知语义距离与语义相似度具有十分密切的作用,语义距离越大相似度越低,反之越高。根据Wordnet 中概念的组织关系我们将概念在层次树中带权最短路径距离作为语义距离:
其中C1与C2表示概念,weighti表示最短路径上第i条边上的权值。最短路径上权值一般认为层次树中两个结点的最短路径是连接他们最短路径上所有边的数目即weighti=1,但是结点在树中的深度也会影响到语义相似度,比如离根结点较远的结点之间相似度比距离根节点较近的节点间相似度大些,深度越大说明概念越具体,相似度就会越大。另外,在层次树中如果两个结点所处的深度一样,宽度越大其权值就越低,这是因为宽度越大说明分类分得越具体,相似度就越高。因此语义相似度除了考虑路径外还需要考虑结点所在树中的深度和宽度。所以我们定义从概念C引出的边的权值即概念C的权值:
通过权重和语义距离,我们定义语义相似度的计算公式:
其中是一个可调节参数,表示当相似度为0.5时的概念距离值。
3 结语
准确表达用户意图,判定概念之间的语义相似度是语义信息检索技术中特别重要的部分,本文介绍了英文语义词典WordNet及其相关的相似度计算方法,提出了一种同时考虑结点路径、深度和宽度的方法,解决当前信息检索中仅仅依靠匹配字符串来查询信息的局限性。下一步的工作就是将该相似度计算方法运用到XML文档的信息查询系统里提高查询质量。本文计算语义相似度也有不足之处:WordNet不会收录所有词的解释,因此会影响到实验的准确性,另外由于是英文词典,所以在处理中文文档的信息检索上还需要结合中文语言处理技术作进一步研究。
参考文献
[1]Resnik P.(1999).Semantic Similarity in a Taxonomy: An Information- Based Measure and its Applications to Problems of Ambiguity
您可能关注的文档
最近下载
- 吉林省中药软片炮制规范.pptx VIP
- 名著阅读《湘行散记》七年级语文上册部编版(共9页).docx VIP
- 《白洋淀纪事》阅读测试题含答案(推荐).docx VIP
- 必考名著《白洋淀纪事》导读+知识点汇总.pdf VIP
- CQJZDE-2008 重庆市建筑工程计价定额.docx VIP
- 人教部编版七年级语文上册名著选读《湘行散记》导读.doc VIP
- 重庆市建筑工程计价定额CQJZDE-2008.doc
- 部编版七上语文名著导读《朝花夕拾》、《白洋淀纪事》、《湘行散记》知识点练习(含答案).docx VIP
- 超星尔雅学习通《大学生劳动教育》章节测试含答案.docx VIP
- 七年级上册名著《湘行散记》知识点+习题(共12页).docx VIP
文档评论(0)