基于知识图谱的文献推荐算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于知识图谱的文献推荐算法研究 摘要 科研工作者在进行论文写作的过程中有一个环节无法避免,即参考文献的查找与引用。而随着计算机与网络技术的发展,当前的主流方法已经从纸质文献的低效查询转变为通过网络向文献索引机构通过关键词的方式进行在线查询。 因此,本文提出了一种基于知识图谱的混合型文献推荐算法,减少用户查询相关文献时需要的操作次数,向用户返回更加有效优质的文献查询结果。本文提出的算法的优势在于:(1)利用了知识图谱来挖掘更多文献之间隐含的信息,如文献的相对重要性,文献作者对文献的影响等;(2)利用词向量来衡量论文之间的内容相关性,作为论文推荐的考虑因素之一;(3)考虑了论文与引文的发表时间之间的关系,避免大量推荐过时但被大量引用的论文;(4)利用神经网络训练了一个混合式的推荐模型,来综合各类参考因素。本文在DBLP文献数据集上进行了实验,最终在2000大小的测试集上得到的准确率为8.6%,召回率为80%,F1值为15.5%,而相对比的随机采样推荐命中率为0.9%,本算法提升效果显著。 关键词:知识图谱;推荐算法;引用网络;文献推荐 前言 近些年来,随着开放链接数据的全面展开,互联网正从仅包含网页和网页之间超链接的文档万维网(Web of Document)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Web of Data)。 而论文之间存在的引用关系与万维网中文档的超链接关系有明显的相似性,所以,如引用网络分析等原本被应用于万维网文档的技术,近年来也被大量应用在论文数据集中。 当前主流知识图谱技术主要应用在搜索引擎改良、问答系统等,以弥补检索式系统的不足。而本文结合了知识图谱在万维网文档中的应用技术如PageRank,提出了将知识图谱应用于科技文献垂直领域的较新颖的推荐方法。本文中提出的基于知识图谱的混合型推荐算法相比于随机采样推荐在准确率与召回率上有了明显的提高。 第一章 绪论 1.1 研究背景 用户在使用关键词进行查询的时候,最有可能遇到的问题就是信息过载的问题,即数个关键词可能会查询到无数个相关的文献。此时,一个良好的推荐算法可以有效地为用户将大量的索引结果进行排序,显著减少用户查询到感兴趣内容所需要的操作次数。 知识图谱于2012年5月17日被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验[2]。目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域[2]。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述,而现在知识图谱以被用来泛指各种大规模的知识库[2]。 本文将知识图谱应用于文献推荐算法的研究中,正是因为知识图谱将现实中的事物映射为知识图谱中实体的特点,能够将来自网络的松散的数据记录整合聚集为一个个知识实体,并在知识实体间建立各类关系,使得对于真实实体的计算更加简单。 一个典型的知识图谱实体集样例如图1-1所示,可以看到在大量不同类型的实体之间存在着复杂的相互关系,这是知识图谱的一个重要特征。 图1-1 知识图谱实体集样例 1.2 论文的内容及意义 在文献推荐领域,当前已有的研究主要集中在以下几个方面: 1. 基于内容的推荐算法 2. 基于协同过滤的推荐算法 3. 基于文献引用网络的推荐算法 4. 基于作者合作网络的推荐算法 5. 混合型的推荐算法 其中基于内容的推荐算法只考虑了相关文献在内容上的相似性,而忽略了文献所具有的其他有价值的信息。同时,用户通过关键词进行召回时,由于可能有太多的文献共享同一个主题及内容,导致推荐的准确率过低[1]。 基于协同过滤的推荐算法要求有同类用户对目标进行打分,这在实际使用场景中的限制较高,不是所有的项目都能使用此方法。 基于引用网络或者合作网络能够充分挖掘论文之间的关系,将其作为推荐的参考因素,因此,通常效果较好。但是,基于这类网络的推荐算法经常容易将给予那些拥有大量关系连接的个体更高的排名,而忽视了那些出现时间较短但是十分重要的个体。 本文主要基于知识图谱的概念,构建科技文献垂直领域的知识图谱,并在此基础上提出了一种结合了PageRank与神经网络的混合型文献推荐算法。 本文为论文文献及相关据所设计的知识图谱模型如图1-2所示,其中: l Author表示作者结点 l Article表示文献结点 l Venue表示发表场所(期刊或会议等) l Author1与Author2间存在co-auth

文档评论(0)

潇湘画里 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档