- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自动化构建的中文知识图谱系统.doc
自动化构建的中文知识图谱系统
摘要:为解决当前中文知识图谱构建的准确率低、耗时长且需要大量人工参与的问题,提出一种端到端基于中文百科数据的完整中文知识图谱自动化构建解决方案,并在此基础上开发实现了面向用户的中文知识图谱系统。在此方案中,通过自定义的网络爬虫,原始百科数据的词条属性以及相关的文本信息会不间断地被抓取到本地系统中,并以带扩展属性的三元组形式保存。后端系统则自动通过图数据库Cayley以及MongoDB数据库系统,对三元组文件数据进行导入,转换为庞大的知识图谱系统,从而在前端为用户提供丰富的基于知识图谱的应用服务。通过与其他知识图谱系统的比较,该方案在构建时间上明显减少,并且知识图谱中的实体及关系数量总规模高于YAGO、知网(HowNet)和中文概念词典等中文知识图谱系统至少50%。
关键词:知识图谱;网络爬虫;三元组文件;知识库;图数据库
中图分类号:TP311.5 文献标志码:A
0引言
一个典型的知识图谱通常包含着一系列概念、实例和关系[1],其为最有效的知识表达形式之一[2]。一些著名的知识图谱包括Internet Movie Database、 YAGO[3-4]、DBpedia[5-6]和Freebase[7]。近几年来,大量的知识图谱已经被构建起来,并且有关知识图谱的话题也非常丰富,在工业界以及学术界呈现出日益增长的关注态势[8]。这一现象背后的重要原因主要是知识图谱已经逐渐被发现对于各种类型的应用都是至关重要的[9-10]。
尽管大量的知识图谱日益涌现,但当前大多公开的研究工作主要是孤立地强调了知识图谱构建环节的某一方面,诸如知识图谱中的数据表示、存储格式或知识获取方法等问题[11-12];此外,对知识图谱系统的维护及应用问题仍然没有有效解决;另外一个问题是,由于中文的语言特点,不能将语义网络[13]中处理英文的方法直接应用于中文文本处理以及进一步的语义提取。中文的句子结构并不像英文那样具有标准的格式。相反,中文句子结构中会经常省略一些语法结构,因而从非结构化的中文文本中直接自动获取有效的知识或事实是非常困难的。截止到目前,在业界仍然没有对于以上问题的成熟解决方案。
本文描述了一个真实的中文知识图谱构建过程,从知识库的组织、知识的获取、知识图谱数据的存储与维护以及知识图谱应用这四个角度重点了介绍了自动化构建中文知识图谱的完整流程;并通过与现有相关知识图谱系统的比较,证明了这种构建方法在构建速度以及系统规模上的优势。
1知识库的组织
一个知识库的后端通常由一系列概念C1,C2,…,Cn,针对每个概念Ci的实例Ii,以及这些概念间的一组关系R1,R2,…,Rm组成。知识图谱中最核心的一种关系被称为“isa”关系,其定义了某个概念A是概念B的一种(例如,“艺术家”是“人”)。“isa”关系在概念Ci之上建立了一种分类系统。这一分类体系是一棵树,其中每一个节点表示了这些概念,每条边表示的是“isa”关系本身,诸如A→B这样一条边表示概念B是概念A的一种。图1展示一个微型的中文知识库的组织方式,其详细阐明了上述符号的含义。
在通常的树型结构中,一个父节点(在分类树中)的一系列实例是其子节点实例的并集,但在本文构建知识图谱情境中,并不强制施加这种限制。因此,节点A可能含有并不属于任何A的子节点的实例。而且,一般的知识库也都包含许多领域完整性的限制。这些都需要专门的领域人员来进行专门的定义,即人工修正知识库。
2知识的获取
将现实世界中零散的知识转换为一个结构化的中文知识库并不是一件容易的事情。下面对从网络百科中构建分类树和从百科中抽取实体关系两个关键步骤进行介绍。
2.1构建分类树
2.1.1爬取百科原始数据
我们开发并维护着一系列基于Python Scrapy[14]框架的爬虫,其能够从百度百科、互动百科等中文百科的页面中抽取需要的部分,爬虫的整体流程框架如图2所示,这或许是最基本且最重要的一步。
因为如果你想要获得有价值的信息,首先需要有着丰富的数据源。系统首先对所提供的百科词条初始URL进行解析,解析模块分为两部分:页面链接解析和知识数据解析。前者会基于定义的HTML规则将该页面中所包含的其他词条URL保存至词条URL库中。之后,系统会不断地对解析到的URL发出抓取请求,进而将获取到的数据发送至知识数据解析器,由该解析器负责在每个词条页面中获取所需的知识数据(具体方法在下文有详细介绍)。将爬取到的数据存储在本地服务器中,使我们可以基于这些数据在其上构建具体模型,对数据作进一步处理。
2.1.2构建百科分类树
在百科中主要有两类页面:词条文章页面和类别页面,如图3所示。
一个词条文章页面描
文档评论(0)