- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
邓兰兰(中国科学院国家科学图书馆 北京 100190
中国科学院研究生院 北京 100190)
李春旺(中国科学院国家科学图书馆 北京 100190)
*
关联数据资源集间相似度计算方法研究
摘要:本文提出了适用于关联数据的资源集间相似度计算的模型,依据基本描述、内容描述
和外部链接三个模块信息,借助相应的向量空间模型、语义相似度算法、集合相似度、数值
相似度算法或变形算法,得到得到资源集间的相似度。在一定程度上,解决当前关联创建中
相关资源集手工配置的问题。
关键词:关联数据 资源集间相似度 模型
Abstract :This paper presents a model that calculates the similarity between resources of linked
data. The model gets the similarity based on the basic description, content description information
and external links information, with the corresponding vector space model, semantic similarity
method, set similarity, num similarity and some improved methods. The result resolves the
problem that when creation of links between instances, related resource have to be provided
manually.
Keywords :Linked data, similarity between resources, model
1 引言
根据 CKAN 的统计,截止2011 年 9 月,网络上已有 2153 个关联数据包,如 DBpedia 、
LinkedGeoData 、LinkedCT.org 、D 等,覆盖了多媒体信息、地理信息、政府信息、新
闻出版信息、生命科学信息以及交叉学科信息等众多领域。然而,资源集之间的关联主要表
现为各个资源集与 DBpedia 、GeoNames 等少数核心资源集(HUB 资源)的链接,其它非
HUB 资源集之间的关联相对比较少,这在一定程度上限制了数据记录级(Item )丰富关联
关系的建立,进而影响到关联数据应用服务的效果。
资源集间的关联关系是建立记录间关系的基础,因此,关于资源集间关联发现与创建方
法成为当前研究热点。基于资源集属性描述信息的相关计算是最常用的方法,如基于 VoiD
(Vocabulary of Interlinked Datasets )、Dataset Profile 等方法。该方法依赖资源集基本属性信
息、概要信息、权限信息等,这些信息为资源集的管理、搜索和爬取提供支持,但它不包含
对资源内容的描述信息,基于属性描述信息计算资源集之间的相似度存在一定的局限性。为
了揭示资源内容,Andriy Nokolov 等人[1]提出了基于随机抽样的资源集内容概要信息生成方
法,即从资源集中抽取有代表性记录标签的属性值,生成一个用以描述数据集内容的子集,
并以该内容子集作为计算记录集间相关性的依据,从而发现数据集内容上的关联关系。该方
法对抽样检索结果充分信任,即假设抽样检索结果全相关。事实上,单纯依靠一种标签属性
所进行的抽样具有一定的片面性。另外,在 Web 整合[2]领域对资源集间相似度计算曾提出
[3] [4]
多种方法,包括:基于资源集的 STARTS 资源描述模型 、提问取样技术 和调焦提问探测
技术[5,6],具体算法有 gGlOSS[7]、CORI[8] 以及ReDDE[9]等。这些算法主要是基于文本网络,
对关联数据集具有一定的借鉴性。
文档评论(0)