- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
扩展知识图谱上的实体关系检索.doc
扩展知识图谱上的实体关系检索
摘要:现有文本数据集上的实体搜索和自然语言查询方法无法处理需要将分散在不同文档中的信息碎片链接起来以满足有复杂实体关系的查询,而知识库上的查询虽然可以表示实体间的复杂关系,但由于知识库的异构性和不完全性,通常查全率较低。针对这些问题,提出使用文本数据集对知识库进行扩展,并设计相应的含文本短语的三元组模式查询以支持对知识库和文本数据的统一查询。在此基础上,设计并实现了查询放松机制和对结果元组的评分模型,并给出了高效的查询处理方法。使用YAGO、ClueWeb09和其上的FACC1数据集,在三个不同的查询测试集(实体检索、实体关系检索和复杂的实体关系查询)上与两个典型相关工作作了比较。实验结果显示,扩展知识图谱上使用查询放松规则的实体关系检索系统的检索效果大大超出了其他系统,具体地在三个查询测试集上,其平均正确率均值(MAP)比其他系统分别提升了27%、37%和64%以上。
关键词:知识图谱;实体关系检索;实体搜索;三元组模式查询;查询放松
中图分类号:TP391.3 文献标志码:A
0引言
近年来,随着从文本中提取结构化数据的信息抽取技术[1]日益成熟,大规模知识库的构建得到了迅猛发展,产生了许多形形色色的知识库,如DBpedia、Freebase、YAGO、Wikidata、NELL、Probase、Google KG和Microsoft Satori等[2]。这些机器可读的知识大多被表示成三元组形式的资源描述框架(Resource Description Framework, RDF)数据,描述实体、实体分类以及实体和实体之间的各种关系等,被广泛应用在文本分析、自然语言理解、机器阅读、语义搜索、自然语言问答等各类智能型的应用中。例如,Google、百度、Bing等搜索引擎正积极构建大型知识图谱,并利用知识图谱改善其搜索效果,如生成结构化的结果摘要(rich snippets)、实体推荐、实体搜索和自然语言问答等。
在知识图谱上进行自然语言问答的通常做法是先将自然语言问题理解成确切的结构化查询,如SPARQL(Simple Protocol and RDF Query Language)查询,然后再在知识库上执行该查询而获得确切答案。例如,如果要找出所有影片和它们的插曲,而知识库中又有music_in_film这样一个song类型实体和movie类型实体之间的关系,则可以将此信息需求理解成以下SPARQL查询:
程序前
程序后
然后在知识库(RDF数据集)上执行该查询就可以得到所有影片和它们的插曲。
理解成确切的SPARQL查询的方法查准率高,但查全率却较低。这主要是由于知识库的异构性和不完全性造成的。1)异构性:同一语义在自然语言中有多种表达方式,在知识图谱上同样可以有许多不同的存在方式。例如,有些电影和它们的插曲之间的关系可能不是用一个直接的music_in_film关系表示的,而是存在一个has_soundtrack关系连接电影和其电影原声带,以及一个contains_song关系连接电影原声带和其中的乐曲等。2)不完全性:知识库中的信息是不完全的。规模再大的知识库也有缺失信息,如有些影片和其插曲的信息在知识库中不存在。造成信息缺失的原因有很多种,如信息抽取的精度没达到阈值等。
针对知识库的异构性和不完全性所带来的问题,本文提出使用文本数据来补充知识库的信息,并实现二者的统一查询。不同于一般的实体检索返回实体列表,本文主要考虑的是实体间具有较复杂关联关系的实体关系查询,返回的结果是实体元组列表。具体地,问题定义如下:给定一个知识库和文本数据集,如何查询才能有效满足用户提出的复杂信息需求。
本文的主要工作:1)提出扩展的知识图谱的数据模型,将文本数据和知识图谱融合在一起;2)相应地提出了三元组模式查询,它是对SPARQL查询模型的扩展,结合了模糊匹配和文本检索等功能,可以更有效地对扩展的知识图谱进行查询;3)提出了对查询结果,即实体元组,进行评分和排序的模型,并给出了各种查询放松(query relaxation)的策略和高效的查询执行算法;4)设计实验和已有的一些典型相关工作进行了全面的比较,实验结果证实本文的方法对复杂查询具有很好的检索效果,优于当前最好的相关工作。
1数据模型和查询语言
1.1扩展的知识图谱
在RDF数据表示的知识图谱中有两类数据对象:1)用URI(Uniform Resource Identifier)唯一标识的资源(resources),包括所有实体、类和谓词/属性等;2)各种类型的数值(literals),如数字、字符串、日期等。这里分别用R表示知识图谱中所有资源的集合
文档评论(0)