以Wikipedia和Freebase为例-武汉大学信息检索与知识挖掘研究所.PDFVIP

以Wikipedia和Freebase为例-武汉大学信息检索与知识挖掘研究所.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以Wikipedia和Freebase为例-武汉大学信息检索与知识挖掘研究所

总第271 期 2016 年 第6 期 基于多知识库的短文本实体链接方法研究* ——以Wikipedia 和Freebase 为例 周鹏程 1 武 川 1 陆 伟 1, 2 1(武汉大学信息管理学院 武汉 430072) 2(武汉大学信息资源研究中心 武汉 430072) 摘要: 【目的 】基于多知识库进行实体链接, 解决基于单一知识库的实体链接覆盖度低的问题。【方法 】首先生 成文本的 n-gram 并利用词性和多个指称–实体字典获取候选指称, 然后生成指称组合并保留覆盖度最大且不被 其他组合包含的指称组合, 接着生成候选实体序列并利用多知识库信息计算实体序列的相关度, 最后选择相关 度最大的实体序列为最终结果。【结果 】以Wikipedia 和Freebase 为例的实验结果表明, 基于Wikipedia+Freebase 的实体链接准确率、召回率、F 值分别达到71.81%、76.86%、74.25%。【局限 】基于词性过滤n-gram 缺乏理论 依据, 数据集FACC1 具有高准确率和低召回率的特点。【结论 】利用多个知识库的实体信息, 能够提升实体链接 效果。 关键词: 实体链接 知识库 Wikipedia Freebase 分类号: G353.1 实体链接研究因其重要的研究意义而备受关注, 1 引 言 多项国际评测会议发布了实体链接相关的任务, 如 实体(Entity)是现实世界中客观存在的并可以相 2007 年 INEX 会议发布的“Link the Wiki”任务(http:// 互区别的事物, 既包括人名、地名、机构名等具体事 www.inex.otago.ac.nz/tracks/wiki-link/wiki-link.asp) 、 物, 又包括概念、关系等抽象事物。实体链接(Entity 2009 年TAC 会议发布的“Knowledge Base Population”任 Linking)是指文档中代表实体的文本片段, 即实体指 务(/tac/)、2012 年TREC 会议发布的 称(Entity Mention, 简称指称), 与特定知识库 “Knowledge Base Acceleration”任务(/)。 (Knowledge Base) 中的条目(Entry)相链接的过程, 有 实体链接在信息检索[2] [3] [4] 、知识库构建 、问答系统 时称命名实体链接(Named Entity Linking)[1] 。 等领域都有较好的应用前景。 实体广泛存在于各类文本中, 而面对未知实体时, 实体链接的难点在于两方面, 即多词一义和一词 需要通过实体链接技术, 利用知识库中相关条目信息 多义。多词一义是指实体可能有多个指称, 实体的标 为原文本添加丰富的语义信息, 帮助读者加深关于该 准名、别名、名称缩写等都可以用来指代该实体, 例 实体的了解, 从而有助于人或者计算机更好地理解、 如 Michael Jordan 、MJ 和 Jordan 都可以指代实体 处理文本。 Michael Jeffrey Jordan 。一词多义是指一个指称可以指 通讯作者: 周鹏程, ORCID: 0000-0002-5954-6863, Email: pc.zhou@ 。 *本文系国家自然科学基金面上项目“基于语言模型的通用实体检索建模及框架实现研究”(项目编号:和武汉大学与中 国科技信息研究所合作项目“科学文献的语义功能识别与深度利用” 的研究成果之一。 XIANDAI TUSHU QINGBAO

您可能关注的文档

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档