网站大量收购独家精品文档,联系QQ:2885784924

Web信息抽取技术纵览2.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web信息抽取技术纵览2

Web信息抽取技术纵览 2 第三章分装器生成 第3.1.节分装器 第3.2.节从IE发展成WG 第3.3.节分装器生成 第3.4.节分装器的归纳学习 第3.5.节小结 各网站的信息内容互相独立,要收集起来有困难。信息抽取技术就是冲着解决此困难而来的。 因特网上还存在一个被称为暗藏网(the hidden web),即那些网上数据库系统。文献[37]估计因特网上80%的内容存在于这种看不见的因特网中。搜索引擎的网络爬虫抓不到这些网页。这就意味着需要一种独立的工具从这些网页中收集数据。 从网站中抽取信息的工作通常由一种叫做分装器(Wrapper,也译包装器)的程序完成。以下3.1.和3.2.节将介绍分装器的概念及分其生成(Wrapper Generation,WG)研究的历史。第3.3节总结了构造分装器的不同方法。手工制造分装器的工作繁重,因此,自动生成的研究变得非常重要。机器学习的方法非常诱人,第3.4节介绍了归纳式学习的相关技巧。 第3.1.节分装器分装器是一个程序,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。在数据库环境下,分装器是软件的组成部分,负责把数据和查询请求从一种模式转换成另外一种模式。在因特网环境下,分装器的目的是把网页中储存的信息用结构化的形式储存起来,以方便进一步的处理。 因特网分装器可接受针对特定信息源的查询请求,并从该信息源中找出相关的网页,然后把需要的信息提取出来返回给用户。它由一系列的抽取规则以及应用这些规则的计算机程序代码组成。通常,一个分装器只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列的分装器程序库。分装器的运行速度应该很快,因为它们要在线处理用户的提问。它还要能应付网络经常变化、运行欠稳定的特点。比如,网络连接失败、文档格式混乱、格式变化等。 建造针对网页的分装器主要有两个好处:一是提高了从某一特定信息源获取相关信息的能力,二是能把不同信息源的信息整合到数据库中,用通用查询语言即可查找信息。 第3.2.节从IE发展成WG人们需要能从不同网页资源抽取并整合数据的工具。这种需求造就了分装器生成研究领域的发展。分装器生成(WG)领域独立于传统的IE领域。典型的WG应用系统能从网上数据库返回的查询结果网页中抽取数据。这些网页构成一个被WG业内人称之为半结构化的信息源。为了能把这些网页的数据整合在一起,必须把相关的信息从这些网页中抽取出来。因此,分装器实质上是针对某一特定信息源的IE应用系统。 传统的IE系统采用基于句法和语义条件相结合的抽取模式。如前所述,对于半结构化信息源,基于语言知识的模式并不是很管用。典型的WG系统生成的是基于分隔符的抽取模式。由于这类网页均是在一个统一的模板上即时生成的,因此,只要学习了几个样本网页后,系统即能识别分隔符特征串,构成不同的模板区域。 从网页中抽取信息并不容易,要考虑许多问题,例如信息量膨胀的问题、系统灵活性的问题等。 第3.3.节分装器生成可用人工或半自动的办法生成分装器。手工生成分装器通常需要编写专用的代码,要花很多时间理解文档的结构并将其转换成程序代码。虽然处理半结构化的网页要容易一些,但并仍然还是比较烦琐而且容易出错。 有一些工具可帮助手工生成分装器。使用的方法之一是利用描述性语法对网页结构进行描述,并且提供工具生成代码。不过,编写语法本身就是一项很艰巨和耗时的工作,而且需要高水平的专家。 手工构造的IE系统不能适应处理对象所属领域的变化。每个领域都要有相应的分装器,维护成本很高。对于网上信息源来说,这些缺点尤为明显,因为网页数量庞大,内容和结构繁杂,而且新的信息源不断增加,旧的信息还会改变,因此,帮助生成自动抽取网页信息的分装器的技术变得非常重要。 半自动化生成分装器的技术得益于上述分装器生成的支持工具。一种方法是使用向导让用户告诉系统那些信息是需要抽取的。通过图形界面,用户即可以通过演示编写程序,标示出需要抽取的区域。这意味着在分装器编码过程中不需要专业知识,而且比手工编码少产生错误。但是,用这种方法也需要对新的站点进行重新的学习,因为这种系统不能自己学习新的网站结构,也不能处理旧网站的结构变化。 全自动分装器的生成利用机器学习的技巧,开发学习算法,设计出从非常简单到相对复杂的分装器。即使是全自动的方法也需要人工专家的少量参与。系统必须通过学习阶段,从例子中归纳出规则。通常,这个过程是由人工指导的。 分装器归纳法是一种自动构造分装器的技术。主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页,那么,这些例子就是高质量的。 第3.4.节分装器的归纳学习用于IE的机器学习方法有很多,如符号化学

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档