网站大量收购独家精品文档,联系QQ:2885784924

基于多层信息的本体概念相似度计算的研究.pdfVIP

基于多层信息的本体概念相似度计算的研究.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多层信息的本体概念相似度计算的研究.pdf

基于多层信息的本体概念相似度计算的研究1 王家琴,李仁发,李仲生,唐剑波 湖南大学计算机与通信学院,湖南长沙(410082) E-mail:wjiaqin@163.com 摘 要: 针对现有相似度度量方法存在的不足,提出一种计算本体中概念相似度的方法。 该方法通过比较概念全称、计算语义相似、统计分析搜索引擎返回结果,分别得出概念在 词形、语义、语用三个层面上的相似度,最后综合这三个相似度,完成相似度的计算。实 验结果表明了该方法的有效性。 关键词: 字面相似度;语义相似度;语用相似度;主观判断 中国法分类号: TP391 1.引言 随着 Internet 的快速发展,我们面临着信息爆炸的难题,面对蕴含着巨大潜在价值 的知识,能否挖掘有价值的信息依赖于信息检索领域的发展。而在信息检索领域中,概念 之间的相似度计算起着很重要的作用,实现高效率搜索的前提是获得概念之间准确的相似 度。目前计算概念间相似度的方法大多都局限于利用概念单一层面的信息,不能完整体现 概念间的相似程度,而语义网[1]中的本体能够描述数据的语义,因此,结合本体与概念的 多层信息可得到两概念间更加准确的相似度。 2.重要概念及相关研究 2.1 概念相似度 相似度在不同的应用领域中可能会有不同的含义。例如,在信息整合领域中,相似度 一般指的是文本与文本能够匹配的程度;在基于实例的机器翻译中,相似度主要用于衡量 文本中概念的可替换程度;而在信息检索领域中,相似度则反映与用户查询的匹配程度, 相似度越高,表明该文本与用户的请求越接近。本文的工作背景即为信息检索领域。 本文约定,相似度的取值范围在 0~1 之间。当比较的两个概念完全相同的时候,其相 似度为 1;反之,当比较的两个概念没有任何关联的时候,其相似度为 0;其他情况下,其 相似度在 0到 1 之间。 2.2 相关研究 概念相似度计算是进行信息检索的基础。现有计算概念相似度的方法大致分为三种: ⑴基于词形也即字面相似方法。主要有基于编辑距离的计算方法[2]和基于相同字或词 的方法[3],但是完全相同的两个概念,由于语义多元化,在不同的上下文中,其所表示的 含义不一定一样。 ⑵基于语义相似方法。主要有两种:①基于义类词典或词汇分类体系计算相似度方法。 这种方法将所有同类的语义项构成一个具有概念层次的树状结构,相应结点之间的距离(称 为概念距离)即可表示词汇语义之间的相似程度,或者通过计算两个概念之间的信息熵计 [4] 算概念之间的相似度。这一类的义类词典和词汇分类体系资源包括 Roget’s Thesaurus 、 1 本课题得到湖南省自然科学基金计划项目(项目编号:05FJ3018);省自然科学基金(项目编号: 03JJY3100)资助 - - 1 - [5] [6] [7] WordNet 等,中文中类似的有《知网》 、《同义词词林》 等等。这种方法简单有效,易 于理解,但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典。②基于 语料库计算相似度。这种方法利用语料库,将概念的上下文信息作为语义相似度计算的参 照依据,根据概念的语义环境是否相同和对概念在上下文中出现的频率进行统计的方法来 [8] 计算概念间的语义相似度。主要包括词汇共现的方法、词汇语义向量空间模型的方法 。 这种方法需要大规模的语料库,当语料库较小的时候就会因数据稀疏(或者称为零概率问题) 或者数据噪声干扰影响到相似度的计算结果。 ⑶基于语用相似方法。这种方法就是根据概念在实际应用环境中的应用来计算概念间 相似度

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档