基于动词的关系模式抽取方法概要
基于动词的关系模式抽取方法摘要:本文提出了一种基于动词的关系模式抽取方法,旨在从中文网页语料中抽取高准确率的实体关系。使用ICTCLAS和实体表进行人名和岛屿岛礁实体识别,生成准确的句子实例,在此基础上构建基于动词的关系模式。实验结果表明该方法获得了良好的抽取性能。关键词:关系抽取;关系模式;实体识别一引言信息抽取研究技术是人们获取信息的有力工具,是应对信息爆炸带来的严重挑战的重要手段。信息抽取的目标是从无结构自然语言文本中提取计算机可以理解的结构化信息,其中一种主要的结构化信息是实体关系。关系抽取是信息抽取的子任务,主要目的是提取句子中的实体关系[1]。Web已经成为包含人类社会各种知识的信息库,其规模正在以指数级速度膨胀,容纳的信息中有各种实体关系信息,如人物社会关系、国家与岛屿之间的拥有主权关系等等。然而,现有的搜索引擎仅能返回与用户关心的相关信息网页,不能得到各种关系信息。本文以从中文网页语料中自动抽取实体之间关系为目标,提出一种基于动词的关系模式抽取方法。二关系抽取语料中的实体包括八类:人名、地名、城市、岛屿岛礁、海域河域、组织机构、政府部门、军事机构,如图1所示。人名人名地名地名城市城市岛屿岛礁岛屿岛礁海域河域海域河域组织机构组织机构政府部门政府部门军事机构军事机构图1 实体关系表如何抽取这八类实体之间的关系、以构建关系模式是我们要研究的内容,本文以抽取人名和岛屿岛礁之
原创力文档

文档评论(0)