专家知识图谱构建研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
专家知识图谱构建研究.doc

专家知识图谱构建研究 摘要:该文在深入分析专家信息的基础上,抽象出专家实体、属性以及它们之间的相互关系,构建出专家知识图谱。运用RDF(Resource Description Framework)2三元组实现对专家知识图谱描述和构建,并实现通过SPARQL(Simple Protocol and RDF Query Language)3语言进行查询。专家知识图谱的构建,对专家知识、智慧的延伸和专家影响力的扩展具有重大的意义。 关键词:专家;知识图谱;RDF;SPARQL 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)07-0195-03 目前,随着“微软小冰”与“小度机器人”等人机对话系统的崛起,基于大数据构建知识图谱,成为当前研究的热点。在信息化技术高速发展的时代,各个领域专家的研究成果、学术观点、言论、工作动态等信息都一定会体现在学术论文、期刊文献、专利数据库、网络媒体、社交平台(微信、微博、博客、论坛)等载体上。通过对这些信息的采集、过滤、挖掘,分析出各个专家实体、属性之间的关系,构建出含有专家信息的知识模型库,可以使得专家们在互联网上虚拟存在,实现对专家知识、智慧和影响力的延伸。基于知识图谱构建专家机器人,能够方便人们更好的查找到某一主题或领域中的各类专家;通过机器人理解、分析并查找相关问题,便可以实现对专家的推荐,扩大专家的影响力。 1 知识图谱简介 知识图谱是描述现实世界实体之间的关系的图4,是“图”和“谱”双重特性的体现5,其概念最先由谷歌提出6。如果将知识图谱比作有一张巨大点线关系图,那么图中的点就代表这每个实体,而实体之间若存在连线,则表示两个实体存在着相应的关系。现在,各大互联网公司均建立了自己知识图谱,其目的主要是为了提高搜索质量2。截至2012年,谷歌为了保障强大的搜索,Google语义网络已超过570亿个对象、18亿个介绍6;但在这些实体和事实中,英语占绝对主导地位。与此同时,百度和搜狗也建立了中文知识图谱,其规模比谷歌略小。 2 专家知识图谱建模 本系统通过对专家知识图谱的构建,以图的形式更简洁、直观地表达专家关联信息,提升用户对专家信息的搜索效率。本系统的研究内容有知识的获取、知识图谱的构建、系统模型的建立、专家信息关联与检索、专家智能推荐、专家机器人的动态维护等; 知识获取:知识图谱构建的前提;主要包含各类专家的基本信息,主要包含专家基本信息,专利信息,文献信息,项目信息,报道信息。目前知识的主要来源于各类百科类数据,如百度百科,维基百科等; 知识图谱构建:这是本系统核心部分,专家知识图谱的构建,首先从专家、专利等实体以 及属性之间关系的抽象开始。根据专家的属性分析和专家与专家之间的关系分析,基本确定本系统的模式图形如图1所示,专家是文献,专利,情报,项目的主体部分,而专家又属于文献,专利,情报,项目的一部分,各个专家之间存在着同事,合作等等关系,建立每个专家之间的关系就能构建一个专家图谱网络。例如关系模型图,专家作为一个实体,专利也是一个实体,专家拥有这项专利,专利的拥有者是这个专家,专利这个实体也拥有自己的属性,例如专利拥有作者,内容,机构,时间等等属性值。专家与专家之间也存在多种关系,其关系图如图2所示。例如一篇文献上面的作者属性是专家1,专家2,那么他属于合作关系;如果专家1和专家2的基本信息中的机构名称是一样的,那他们就是同事关系;如果两篇专利的课题一样的那么他们的著作人即专家1和专家2就是研究方向一样的关系,等等。在存储方式上,专家知识图谱的主要存储的方式摒弃了传统的关系型数据库的存储方式,而是直接采用RDF (Resource Description Framework) 2 三元组的形式对专家信息进行描述和保存(如图1所示)。 系统模型的建立:通过对海量专家信息资源库的挖掘与搜索,自动生成或呈现专家的基本信息,专利信息,文献信息,项目信息,报道信息。并且以关系图形的形式展现。 专家信息检索:其前端主要有两种检索方式,一是直接通过SPARQL语言,直接对RDF构建的知识库进行查询;而是通过关键字检索,如姓名,行业,文献,研究主题等,间接使用SPARQL语言对知识库进行查询。 专家关联:能通过某一研究方向,某一个领域找出核心专家(如图2所示)。 专家智能推荐:通过某一关键词,推荐出相关联的专家信息或者其他实体、属性信息。 专家机器人的动态维护:主要是指通过不断机器学习,不断地发掘已有的专家信息或者搜索信息分析出更为复杂的专家之间的关系;并构建出新的关联关系。 3 专家知识图谱实现 3.1 RDF构建 RDF主要是一种描述语义WEB的标记语言7,通过RDF/XML的形式存储,实现了对专家知识图谱模型的构建。通过对专家、文献、专利、报道等实体关系分析,我

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档