基于WEB的快速信息抽取技术的研究与实现.pdfVIP

  • 4
  • 0
  • 约 6页
  • 2017-08-16 发布于安徽
  • 举报

基于WEB的快速信息抽取技术的研究与实现.pdf

基于WEB的快速信息抽取技术的研究和实现 高英1,郭荷清2 (华南理工大学计算机科学与工程学院广东省广州市510641) 2(华南理工大学计算机科学与工程学院广东省广州市510641) E-mail:worldstargao@163.com;guozhou@seut.cdu.cn http://www.scut.edu.cn 摘要:面对互联网中浩瀚的信.g-,固然可以通过一些现成的搜索引擎去搜索,得到的却仍然是一大堆的 信.E-,未必都是想找的,而且,也没有分类。另外,还存在一种“看不见的网”也就是因特网上存在的, hidden 被称为“暗藏网”(the web)的网上数据库系统,搜索引擎的“网络爬虫”抓不到这些网页。这就 意味着需要一种独立的工具从这些网页中收集数据。本系统实现了准确而高效的找到所需要的信息。 关键词:信息抽取规则 信息抽取(InformationExtraction:IE)的目标是把文本里包含的信息进行结构化处理,变成表 格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的 文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息抽取技术并不试图 全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设 计时定下的领域范围而定。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么 ~个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些 信息收集在一起,用结构化形式储存,那将是有益的。由于网上的信息载体主要是文本,所以,信息抽取 技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文 档中转换成数据库记录的系统。因此。成功的信息抽取系统将把互联网变成巨大的数据库。I 1.信息抽取技术的概论 信息抽取(InformationExtraction:IE)原来的目标是从自然语言文档中找到特定的信息,属于自然 语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能 处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需 要抽取的信息。网上文本信息的大量增加导致这方面的研究得到高度重视。多数IE的研究是从以规则为基 础的计算语言学和自然语言处理技术发源的。 e 2.基于Wb的快速信息抽取 由于HTML文档数据是无结构的,没有模式信息,并且信息量巨大,因此在信息抽取过程中,采取 了添加模式和抽取关键信息的方法。 数据抽取工作主要由装配器来完成。通常可采用半自动生成的装配器来实现数据的抽取。我们将信息 抽取过程分为两个阶段,因而装配器的实现也分为两个阶段。 第一阶段,采用面向对象模型,即从单~web站点抽取出来的信息以对象模型来表示,这是因为同 作者简介: 高英(1974一),女.江苏泰州人.在读博士,讲师,主要研究领域为信息系统的集成与安全:郭荷清(1936 一)。江苏人,教授.博士生导师,主要研究领域为信息系统的集成与安全。 !丝壁堕塑!!壁苎兰垄兰竺墨丝兰——一—— 一站点的同种信息一般具有统一性或相似性,因此可以采用对象模型表示。在对单一站点的抽取过程中, 不但抽取过程比较简单,而且对于数据以后的集成或其它处理也会带来很大的好处。对于不同Web站点 e eb站点 的信息抽取,将单一w b站点抽取出来的信息集成,相当于对不同数据库的集成,由于单个w 抽取出来的信息都是以对象模型表示,因此,如果采用OEM模型作为中间的交换模型,就可以避免从一 E EM模型的灵活性。 开始用O M模型进行信息抽取带来的复杂性,同时也能够充分利用O 第一阶段中抽取到的信息是同类信息,为了能够快速地抽取信息,必须快速方便地形成抽取信息的高 效规则。我们采用了基于分界符的方法和轻型的装配器的思想,即执行简单的任务,需要较少

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档