- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
典型关系抽取系统的技术方法解析-中国科学院文献情报中心.doc
典型关系抽取系统的技术方法解析?
徐健1 2 3 张智雄1
1(中国科学院国家科学图书馆,北京 100080)2(中国科学院研究生院,北京 100080)
3(中山大学资讯管理系,广州 510275)
摘要:实体关系抽取是信息抽取领域中的一项重要任务。关系抽取的思路基本可以归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习算法机制的关系抽取、基于Ontology的抽取以及混合抽取方法。从技术应用特点、核心模块的实现细节以及系统评测结果等方面深入分析了典型的关系抽取系统,它们包括REES关系抽取系统、SVM关系抽取系统、T-Rex关系抽取系统、KMI语义网络门户的混合关系抽取系统。
关键词: 关系抽取,关系抽取方法,典型系统
1 引言
信息抽取任务在细节和可靠性上有不同的选择,但一般都包括两个普遍存在并且紧密关联的子任务:实体识别和关系抽取。实体识别通过实体抽取技术抽取各个知识要素。抽取出的知识要素以离散的形式存在,只能反映出文本中包含哪些实体,例如人、机构、地点等,却不能反映出知识要素之间的关系,例如机构与人之间的雇用关系、机构与地点之间的位置关系等,而关系抽取则是要解决这一难题。
关系抽取技术在很多领域具有应用价值。例如,在自动问答系统中,关系抽取技术能够实现自动地将相关问题和答案进行关联;在检索系统中,关系抽取技术使类似于“找出某个机构所有成员的出版物”这样的语义检索功能的实现成为可能;在本体学习过程中,关系抽取技术一方面可以帮助本体库增加更多的关系实例,另一方面能够通过发现新的实体间关系来丰富本体结构;在语义网标注任务中,关系抽取能够将语义网相关知识单元进行自动关联。
关系抽取技术路线经历了从模式、词典等简单方法到机器学习、基于Ontology的关系抽取等复杂方法,从基于分词、句法等匹配的浅表分析到基于语义的深层分析的发展过程。关系抽取性能正在逐步提高,技术也在不断进步和完善。尽管关系抽取技术还未达到普遍应用的成熟度,一些典型关系抽取原型系统的发展仍然值得我们关注。从这些原型系统,我们可以看到关系抽取技术的关键问题、发展趋势,以及广泛的应用前景。本文的第2部分对关系抽取的技术路线进行总结。第3部分选取具有代表性的几个关系抽取系统,从关系抽取的技术特色方面进行了分析。
2 关系抽取的几种思路
通过长期探索和不懈努力,信息抽取领域的学者们已经提出一些关系抽取技术路线,并被应用在各种实验系统当中。这些技术路线所遵循的思路基本可以归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习算法机制的关系抽取、基于Ontology的关系抽取以及混合抽取方法。
(1)基于模式匹配的关系抽取
在关系抽取研究领域,普遍使用基于模式匹配的关系抽取方法。这种抽取方法通过运用语言学知识,在执行抽取任务之前,构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。
Douglas E. Appelt等人[1]在MUC-6上提出的FASTUS抽取系统中,通过引入“宏”的概念将各种领域依赖规则以一种具有扩展性的、通用方式表达。用户只需要修改相应“宏”中的参数设置,就可以快速配置好特定领域任务的关系模式规则。Roman Yangarber等人[2]在MUC-7上提出的Proteus抽取系统采用了基于样本泛化的关系抽取模式构建方法。用户通过Proteus系统提供的模式构建界面,对含有某种关系的例句进行分析,识别出所含关系的要素,并将这些要素泛化,最后经用户确认存储经泛化表达的模式。
(2)基于词典驱动的关系抽取
与基于模式匹配的关系抽取方法相比,基于词典驱动的关系抽取方法显得非常灵活。新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。用户不需要具备复杂的模式语言知识就可以轻松配置抽取系统。
Chinatsu Aone等人[3]在MUC-7上提出了一个快速、灵巧的大规模事件和关系抽取系统REES(Large-Scale Relation and Event Extraction System)。该系统采用的词典驱动方法需要对于每一个事件指示词设置一个词典入口,而这个词通常是动词。词典入口具体化了该动词参数的句法和语义限制。
基于词典驱动的关系抽取方法的缺点也非常明显。它通常只能识别以动词为中心词的关系,而对于名词同位语之类的关系抽取就很难实现了。另外,使用这种方法无法对系统中没有对应词汇入口的新关系进行探测。
(3)基于机器学习算法机制的关系抽取
基于机器学习算法机制的关系抽取方法是目前应用比较广泛的方法。该方法实质是将关系抽取看作是一个分类问题。通过具体的学习算法,在人工
文档评论(0)