- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以Wikipedia和Freebase为例-武汉大学信息检索与知识挖掘研究所
总第271 期 2016 年 第6 期
基于多知识库的短文本实体链接方法研究*
——以Wikipedia 和Freebase 为例
周鹏程 1 武 川 1 陆 伟 1, 2
1(武汉大学信息管理学院 武汉 430072)
2(武汉大学信息资源研究中心 武汉 430072)
摘要: 【目的 】基于多知识库进行实体链接, 解决基于单一知识库的实体链接覆盖度低的问题。【方法 】首先生
成文本的 n-gram 并利用词性和多个指称–实体字典获取候选指称, 然后生成指称组合并保留覆盖度最大且不被
其他组合包含的指称组合, 接着生成候选实体序列并利用多知识库信息计算实体序列的相关度, 最后选择相关
度最大的实体序列为最终结果。【结果 】以Wikipedia 和Freebase 为例的实验结果表明, 基于Wikipedia+Freebase
的实体链接准确率、召回率、F 值分别达到71.81%、76.86%、74.25%。【局限 】基于词性过滤n-gram 缺乏理论
依据, 数据集FACC1 具有高准确率和低召回率的特点。【结论 】利用多个知识库的实体信息, 能够提升实体链接
效果。
关键词: 实体链接 知识库 Wikipedia Freebase
分类号: G353.1
实体链接研究因其重要的研究意义而备受关注,
1 引 言
多项国际评测会议发布了实体链接相关的任务, 如
实体(Entity)是现实世界中客观存在的并可以相 2007 年 INEX 会议发布的“Link the Wiki”任务(http://
互区别的事物, 既包括人名、地名、机构名等具体事 www.inex.otago.ac.nz/tracks/wiki-link/wiki-link.asp) 、
物, 又包括概念、关系等抽象事物。实体链接(Entity 2009 年TAC 会议发布的“Knowledge Base Population”任
Linking)是指文档中代表实体的文本片段, 即实体指 务(/tac/)、2012 年TREC 会议发布的
称(Entity Mention, 简称指称), 与特定知识库 “Knowledge Base Acceleration”任务(/)。
(Knowledge Base) 中的条目(Entry)相链接的过程, 有 实体链接在信息检索[2] [3] [4]
、知识库构建 、问答系统
时称命名实体链接(Named Entity Linking)[1] 。 等领域都有较好的应用前景。
实体广泛存在于各类文本中, 而面对未知实体时, 实体链接的难点在于两方面, 即多词一义和一词
需要通过实体链接技术, 利用知识库中相关条目信息 多义。多词一义是指实体可能有多个指称, 实体的标
为原文本添加丰富的语义信息, 帮助读者加深关于该 准名、别名、名称缩写等都可以用来指代该实体, 例
实体的了解, 从而有助于人或者计算机更好地理解、 如 Michael Jordan 、MJ 和 Jordan 都可以指代实体
处理文本。 Michael Jeffrey Jordan 。一词多义是指一个指称可以指
通讯作者: 周鹏程, ORCID: 0000-0002-5954-6863, Email: pc.zhou@ 。
*本文系国家自然科学基金面上项目“基于语言模型的通用实体检索建模及框架实现研究”(项目编号:和武汉大学与中
国科技信息研究所合作项目“科学文献的语义功能识别与深度利用” 的研究成果之一。
XIANDAI TUSHU QINGBAO
您可能关注的文档
- 上海企业孵化器空间布局演化及区位影响因子-华东师范大学.PDF
- 上海师范大学金融学院-商学院.DOC
- 上海财经大学浙江学院考试管理实施细则试行.PDF
- 上海非毕业班中学生抑郁障碍调查与影响因素分析.PDF
- 上虞山洪灾害防治非工程措施建设采购项目-上虞区公共资源交易网.DOC
- 上虞人民医院医疗设备采购项目征求意见-上虞区公共资源交易网.DOC
- 下一条人体寄生虫学试验指导.PDF
- 上篇遗传的细胞学基础-绵阳职业技术学院-成都农业科技职业.PDF
- 不同养分和水分管理模式对水稻抗倒伏能力的影响中国科学院.PDF
- 不同品种系凤凰茶春梢生化成分分析-广东农业科学.PDF
- 仙居田镇李宅片粮食生产功能区基础设施项目-仙居公共资源.DOC
- 以及正确的评价方法-史宾沙.PDF
- 以工程教育观改革为突破口不断提高自身素质-大连理工大学教学成果网.DOC
- 以植物细胞培养技术生产重组尘过敏原蛋白Derp2之研究.PDF
- 以组织病理细胞学和影像结构特征为分析依据的乳腺导管增生计算机.PDF
- 以类平均聚类法分析不同产地土贝母中土贝母苷甲含量及影响因素.PDF
- 以论坛文章蕴含情绪为基之文章重组模式-崇越论文大赏.PDF
- 仪器设备生物安全柜切片机生物安全柜-资产管理处-南京医科大学.DOC
- 任务63茄科蔬菜病害防治技术.PDF
- 企业孵化器基于全球区块链的平台白皮书企业孵化器项目团队二-IBT.PDF
文档评论(0)