本体匹配中一种综合概念相似度计算方法研究.docVIP

本体匹配中一种综合概念相似度计算方法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本体匹配中一种综合概念相似度计算方法研究

本体匹配中一种综合概念相似度计算方法研究   【摘要】在信息检索领域,概念间的相似度计算是实现高效率、高命中率搜索的前提。本文针对现有相似度计算方法的不足,提出一种综合的计算本体间概念相似度的方法。该方法分别计算两个概念的名称相似度、属性相似度和结构相似度,最后综合得到两个概念间的相似度,实验结果证明该方法有效。   【关键词】本体匹配;概念相似度;名称相似度;属性相似度;结构相似度   1.引言   本体提供了一种对信息和知识进行规范化描述和建模的方法,具有的良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。本体的应用,使用户和计算机能够更准确地基于语义进行交流[1]。但是由于本体是不同背景知识的领域专家使用各种术语构造和维护的,这些本体的表现形式和内在逻辑结构可能有差异,这种异构严重影响了本体间的知识共享和重用。   图1给出了本体异构的一个实例,图a为iswc.owl本体[2]中的部分片段,图b为kalsruhe大学构建的swrc.wol本体[3]中的部分片段。   如上图所示,两个本体都表示了大学的人员构成,但却存在语义冲突。例如两个本体中都包含概念Employee,但表示不同的意义,在图(a)中表示除教工以外的其它职工,而在图(b)中表示大学中的所有教职员工;图(a)中的FacultyMember和图(b)中的AcademicStaff则都可以表示教学人员。   相似度计算在基于本体的领域资源语义检索中担当着重要的作用。通过相似度计算对检索范围进行扩充可以发掘出与检索相关的隐性信息,同时也避免了基于关键字查询时因为语义多元化导致检索出无关信息的问题,从而使得检索结果更为全面、准确。本文基于概念名称、概念属性、概念结构相结合的方法,提出了本体匹配中一种综合概念相似度计算方法。   2.概念相似度   在信息检索中计算概念相似度,主要目的是反映结果与用户查询请求的匹配程度,相似度越高,表明该文本与用户请求越接近。在本文中,相似度的取值范围为[0,1]。当比较的两个概念完全相同时,其相似度为1;反之,当两个概念没有任何关联的时候,其相似度为0;其他情况下,其相似度在0到1之间。   目前计算概念相似度的方法主要有三种[4]。   (1)基于词形也即名称相似的方法。这种方法基于编辑距离或相同字词进行计算,与传统的基于关键字检索其实有类似之处。从图1的例子可以看出,由于语义多元化,完全相同的两个概念在不同的上下文中,其所表示的含义不一定一样。   (2)利用语义词典如WordNet、Roget’s Thesaurus中的同义词或义原将所有同类的语义项构成树状层次体系结构,通计算两个概念之间的信息熵或语义距离计算概念语义相似度。   (3)利用语料库统计的方法,根据两个概念在上下文中出现的频率计算概念间语用相似度。   3.综合的概念相似度计算方法   3.1 基于概念名称的相似度   使用元素名称发现查询结果是最直接也是最基本的方法,目前采用较多的有基于文本相似的方法,例如:计算编辑距离的方法、计算单词前后缀相似性的方法、计算Jaro-Winler分数的方法[5]。另一种是基于词典相似的方法,使用较多的是WordNet,例如基于路径长度的Leacock-Chodorow方法、基于最近上层概念的负平均信息量的Lin方法[7]等。   通常在命名时,大家习惯使用完整的单词、部分单词或者复合词作为名称,例如Employee、Associate_Professor。为此,本算法使用了基于同义词和字符串公共子串比较相结合的元素名称相似度计算方法,既考虑元素名称的实际意义,同时也考虑了字符串的相似性,因为两个概念的公共子串长度越长,这两个字符串相似度就越高,其表示相似含义的可能性就越大。在处理概念名称相似度和属性相似度时都采用了同样的方法。   概念A和概念B基于名称的相似度计算公式为:   如果两个概念文本完全匹配,即这两个概念的文本完全相同,则相似度为1。通过WordNet可以查到单词的同义词组,如果两个概念对应字符串的同义词组中有相同的词,那么这两个概念是同义关系,则相似度为a,其中a为常数,由领域专家根据情况确定,且。   表示A和B最大公共子串的长度,和分别表示A和B的字符串长度。   3.2 基于概念属性的相似度   本体中概念的属性可以是简单的数据类型(DatatypeProperty),例如phone就是数据类型属性。如果一个概念的实例通过一个属性与另一个概念的实例相关联,那么这个属性就是对象类型属性(ObjecttypeProperty)。对象类型属性其实体现了两个概念间除继承以外的关系,例如:PhDStudent有一个属性tut

您可能关注的文档

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档