- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种面向中文本体模式的本体对齐框架
总第2 期 2017 年 第2 期
一种面向中文本体模式的本体对齐框架*
王 汀 高 迎 刘经纬
(首都经济贸易大学信息学院 北京 100070)
摘要: 【目的 】现有的本体对齐方法往往忽视中文概念的语序敏感和一词多义的语义特征。本文提出一种基于
同义词词林和序列比对算法的大规模中文本体映射模型。【方法 】采用基于改进的同义词词林相似度算法计算简
单词元的语义相似度。并利用基于改进同义词词林与序列比对相融合的算法度量未登录词之间的语义相似度。
【结果 】在由 DBpedia( 中文版) 、百度百科和互动百科知识库所构建的测试语料上的关联映射实验结果表明, 该
模型的准确率、召回率和综合评价指标平均分别达到约 97.5%、87.8%和 92.1%。【局限 】本模型仅专注于对中
文本体概念的元素级相似度度量, 并未考虑本体属性和实例对于概念等价关系的影响因素。【结论 】在面向中文
网络百科的大规模开放语义数据集上的评测结果证明, 该模型的总体性能明显优于现有算法。
关键词: 中文关联数据 同义词词林 序列比对 本体映射 相似度计算
分类号: G353.1
式级别的大规模中文关联数据模型。因此, 为了解决
1 引 言
在关联数据网络中的中文本体语义互操作和共享问
语义 Web 的愿景是建立“数据之网”(Web of Data), 题, 本文面向本体模式层面, 提出一种新的大规模中
以使机器能够理解网络上的语义信息[1] 。本体作为语 文本体映射模型。
义 Web 的核心元素, 是描述特定领域共享概念的形式
2 相关工作
化、规范化说明[2], 是实现网络知识共享和语义互操作
的基础。目前关联数据(Linked Open Data, LOD)[3]的研 国内外研究人员已提出多种映射方法和典型系
究工作主要集中在面向实例级别(Level of Instances)上 统 。 Melnik 等 [7] 提 出 一 种 结 构 级 本 体 映 射 算 法 :
展开[4-5], 同时, 由于不同本体之间存在异构性, 导致 Similarity Flooding, 利用本体的概念体系构造相似度
本体间的重用和共享变得困难。因此, 作为关联数据 传播图 , 并对概念之间的相似度进行传播和修正。
的基础和前提, 面向模式级别(Schema-Level) 的关联 Cohen 等[8]分析基于编辑距离和基于 Token 的几种典
数据构建研究亦很重要[6] 。 型元素级相似度计算算法, 并对几种算法的性能进行
本体映射(Ontology Mapping)作为模式级的关联 评测。Giunchiglia 等[9]提出基于语言学方法, 并引入共
数据构建典型场景已被广泛研究, 其任务就是要发现 享知识词典(如: WordNet[10]), 利用语言关系进行语义
异构本体或数据源(LOD Datasets)之间的概念语义关 关系发现。Isaac 等[11]提出一种实例级本体映射算法,
联。而随着语义网的蓬勃发展, 中文描述的大规模本 根据本体概念的公共实例数量来度量概念的相似度。
体和知识库也越来越多地被构建和共享出来。同时, Nikolov 等 [12]基于工作流技术提出链接数据的框架
由于文化和背景的原因, 目前大规模中文关联数据网 KnoFuss, 利用本体库中概念之间的层次关系选择最
络的构建研究尚处于初级阶段, 更缺乏成熟的面向模 合适的匹配方法以及匹配参数。 Zhong 等 [13] 提出
通讯作者 : 王汀, ORCID: 0000-0003-2481-2890, E-mail: wangting@ 。
文档评论(0)