- 6
- 0
- 约4.55千字
- 约 8页
- 2018-03-16 发布于北京
- 举报
基于GATE框架的中文信息抽取技术的研究
摘要:介绍了信息抽取技术的基本概念、GATE信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了介绍,指出了构建中文信息抽取系统所需要解决的关键问题及解决办法。
关键词:GATE;信息抽取;中文
中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)24-6857-02
The Chinese Information Extraction Research Based on GATE
WU Fang1, ZHENG Jun1, LIU Jin-liang2, ZONG Ke-xuan1
(1.Cangzhou Medical College,Changzhou 061001, China; 2.Cangzhou Electric Power Company of Hebei,Changzhou 061001,China)
Abstract: Introduced the concepts about information extraction and the information extraction process of GATE. The existing methods of information extraction were interpreted in this paper. In the final, it pointed out key issues and solutions of building Chinese information extraction systems.
Key words: GATE; information extraction; Chinese
随着网络的迅猛发展,社会的信息总量成指数级增长。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取(Information Extraction,IE)正是解决这个问题的一种方法。
信息抽取是指从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并存入一个数据库,供用户查询和使用的过程。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为各种应用提供服务。
本文通过研究语义信息抽取工具GATE,提出了构建基于GATE的中文信息抽取系统的总体思路。具有很好的实际应用价值。
1 GATE的介绍
自然语言处理框架GATE(General Architecture for Text Engineering,文本工程通用框架),是目前自然语言处理领域比较受推崇的一个开源项目,它是一个应用非常广泛的自然语言处理开放型基础架构,为用户提供了图形化的开发环境,被许多自然语言处理项目尤其是信息抽取的项目所采用。该系统对语言处理的各个环节――从语料收集、标注、重用到系统评价均能提供很好的支持。
1.1 GATE的功能
GATE自然语言信息抽取系统致力于解决在语言工程领域的问题,是该领域开发和试验的工具箱。它具体完成以下三种功能:
1)为语言处理软件提供总体的开放架构。
2)提供用于自然语言处理的可重用组件,能够嵌入到各种不同语言处理的程序中。
3)为语言处理软件的研究和开发提供一种方便的图形化的环境。
1.2 GATE的系统结构
GATE共有三个基本模块,如图1所示。
1.2.1 GATE文档管理器
GATE的数据存储通过GATE文档管理器DGM来实现,GATE中的数据存储有两种机制:关系型数据库;基于文件系统的存储,使用Java序列化或基于XML的内部格式。
1.2.2 CREOLE的管理
GATE把所有的自然语言处理系统元素细分为几种不同的组件,称为资源。GATE中具备共同的可重用特征的资源,统一称作CREOLE(面向语言处理的可重用对象集合),以GATE为基础的语言处理系统中所有的文本分析工作都通过CREOLE模块来完成。
1.2.3 GATE图形用户接口
只要符合GATE的规范,调用特定的API就可以通过GUI在同一界面中显示。
以上这些GATE的组件,使GATE本身具有很强的扩展性。我们可以把GATE看作一个基础的开发和部署框架,可以在其中加载很多可重用的功能组件。其它程序语言以及数据库可直接调用GATE的API。GATE能方便的与其它系统以及处理模块进行集成与通讯,系统地解决信息抽取的问题。
1.3 GATE与信息抽取
GATE在信息抽取技术方面分为结构化
原创力文档

文档评论(0)