- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅论一种医疗本体语义相似度算法的设计
浅论一种医疗本体语义相似度算法的设计摘要:由于目前检索技术效率低下,所以需要一种基于本体的检索技术来提高效率。语义相似度计算是基于本体的检索技术的一个关键问题。本文对已有语义相似度计算方法进行总结并改进,最后对其进行分析。
关键词:本体;本体检索;语义相似度计算
1 引言
随着Internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日Berners-Lee在国际XML2000的会议提出Semantic Web(语义网)的构想[1]。在Semantic Web中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。
关于语义的相关性,国内外专家已经做了大量的工作:Resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。Agirre等在利用WordNet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。Li Sujian等提出了一种词语语义相似度的计算方法,计算过程综合利用了《知网》和《同义词词林》。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。
本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。
本体与领域本体
本体(Ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。
本体的概念
目前对本体的定义有很多,专家们认为由Studer等人在1998年提出的“本体是共享概念模型的明确的形式化规范说明。[3]”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。
概念化:指通过抽象得出客观世界中一些现象(Phenomenon)的概念模型。
明确:指所使用的概念及使用这些概念的约束都有明确的定义。
形式化:指本体是计算机可读的(即能被计算机处理)。
共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。
2.本体的分类
Guarino[5]在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application) Ontologies共4类。其中:
顶级Ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的Ontologies都是该类Ontologies的特例。
领域Ontologies描述的是特定领域中的概念及概念之间的关系。
任务Ontologies描述的是特定任务或行为中的概念及概念之间的关系。
应用Ontologies描述的是依赖于特定领域和任务概念及概念之间的关系。
本文主要就是基于领域Ontology来设计与研究语义相似度计算方法。
语义相似度计算
语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。
语义相似度计算原则
语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的[2],其内容如下:
量化原则:相似度是一个数值,取值范围应该在[0,1]之间[3],如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。
简单性原则:计算相似度的同时应该考虑计算复杂度[4],复杂度应该尽量降低。
充分利用本体的特性。
可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况[2]。
类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。
对称性:Sim(C1,C2)= Sim(C2,C1),对称性有利于概念相似度之间的对比与换算。
3.相似度计算方法
本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,subClassOf:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:C0是C1,C2的父类,而C1与C2则是C0的子类。
利于OWL语言构建此本体
文档评论(0)