- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于动词的关系模式抽取方法
PAGE \* MERGEFORMAT 27
PAGE \* MERGEFORMAT 1
基于动词的关系模式抽取方法
摘要:本文提出了一种基于动词的关系模式抽取方法,旨在从中文网页语料中抽取高准确率的实体关系。使用ICTCLAS和实体表进行人名和岛屿岛礁实体识别,生成准确的句子实例,在此基础上构建基于动词的关系模式。实验结果表明该方法获得了良好的抽取性能。
关键词:关系抽取;关系模式;实体识别
一 引言
信息抽取研究技术是人们获取信息的有力工具,是应对信息爆炸带来的严重挑战的重要手段。信息抽取的目标是从无结构自然语言文本中提取计算机可以理解的结构化信息,其中一种主要的结构化信息是实体关系。关系抽取是信息抽取的子任务,主要目的是提取句子中的实体关系[1]。
Web已经成为包含人类社会各种知识的信息库,其规模正在以指数级速度膨胀,容纳的信息中有各种实体关系信息,如人物社会关系、国家与岛屿之间的拥有主权关系等等。然而,现有的搜索引擎仅能返回与用户关心的相关信息网页,不能得到各种关系信息。
本文以从中文网页语料中自动抽取实体之间关系为目标,提出一种基于动词的关系模式抽取方法。
二 关系抽取
语料中的实体包括八类:人名、地名、城市、岛屿岛礁、海域河域、组织机构、政府部门、军事机构,如图1所示。
人名人名地名地名城市城市岛屿岛礁岛屿岛礁海域河域海域河域组织机构组织机构政府部门政府部门军事机构军事机构图1 实体关系表
如何抽取这八类实体之间的关系、以构建关系模式是我们要研究的内容,本文以抽取人名和岛屿岛礁之间的关系为例开展研究。
我们提出的关系抽取策略包括句子实例获取、关系模式的构建。实体关系抽取原理如图2所示。
中文网页语料(文本)
预处理
关系模式构建
确定动词概念
确定名词概念
生成规则
训练部分
测试部分
生成关系模式
新实例抽取
图2 实体关系抽取原理图
(一) 句子实例获取
将中文网页正文部分进行预处理,获取含有实体的句子作为关系抽取的句子实例。预处理包括分段分句、词性标注、命名实体识别等[2]。本文主要处理人物与岛屿岛礁之间的关系抽取任务,所以在分好的句子中使用ICTCLAS[3]识别出这两种实体类型,在句子中出现的人物以“[1-人名XX]”标注,岛屿以“[23-岛屿名XX]”标注。
(二) 关系模式的构建
传统的启发式方法对句子实例进行词性标注,并用通配符替换实体对出现的位置来构建模式[4],但通用性和准确性不足,例如“北京是中国的首都”的模式构建结果为“object是/v target的/u首都/n”,而从“北京是中国政治文化的中心”中得到的模式并未表示北京和中国之间的capital-of关系。
本文使用的关系模式抽取方法是从种子句中出现在实体前后的上下文来学习关系模式,在从种子句中学习抽取模式时,并不是机械地把出现在种子句中实体前、实体中、实体后的所有词语均作为所学模式的特征词[5]。因为通过对句子的观察,发现句子中两个实体的上下文中常会出现大量的修饰性词语,如形容词、副词、语气词等,如果把所有出现的词语都作为抽取模式的特征词,一方面极大地增加了模式的长度,会在以后的模式匹配工作中占据较多的机器时间,另一方面长模式的匹配准确率也会有相应的下降。所以本文提出了基于动词的关系抽取方法,以“动词”为核心,将相同动词的句子放在一起抽取关系模式。
以下是一个句子标注例子:
动词:到达
从谭门镇出发,将航向调到东南110度,3天3夜后“琼琼海08068”号渔船船长[1-许卫]可到达[23-黄岩岛]。
不用翻译
我们抽取的是实体(概念)之间的关系,这种关系在文本体现方式上为上下文环境约束。即提炼各种上下文环境约束规则,将其实现到语言中,计划实现的上下文环境计算符包括:SENT,表示在同一句话中;ORD,表示满足先后顺序;DIST_n,表示两两距离不能超过n等等。
关系模式的一个示例:
CONCEPT: ACTION_ARRIVE: 到达
CONCEPT: NAME: 许卫
CONCEPT: NAME_ISLAND: 黄岩岛
MCONCEPT_RULE:ARRIVE(person.island):(SENT,ORD( “_person{NAME}”, ”ACTION_ARRIVE”, ”_island{NAME_ISLAND }”))
不用翻译
关系模式包含两部分的内容,一部分是概念,一部分是规则。“CONCEPT”表示概念,包括动词概念和名词概念,动词概念以“ACTION_”为开头,名词概念指的是实体,如人
您可能关注的文档
- 2016-2017学年高中化学专题4.2.1氯气教学案教程.doc
- 2016-2017学年高一化学精品课件:第3章+第2节+第2课时《铝的重要化合物》(人教版必修1)教程.ppt
- 国企海外经营的合规管理及合规评价培训大纲.doc
- 2016-2017学年高中地理4.1森林及其保护课件教程.ppt
- 2016-2017学年人教版必修一第10课《奥斯维辛没有什么新闻》课件教程.ppt
- 2016-2017学年高中政治第一单元生活智慧与时代精神第3课哲学史上的伟大变革(第2课时)课件教程.ppt
- 国内废旧轮胎处理.doc
- 2016-2017学年初中道德与法治人教版七年级上册同步课件8教程.pptx
- 2016-2017年南方新课堂·高中语文学业水平测试课件:板块1专题7语言运用教程.ppt
- 2016-2017实验室安全考试_题库带答案教程.doc
文档评论(0)