网页正文信息抽取方法探析.docVIP

下载本文档

1
0
约3.01千字
约 7页
2017-08-12 发布于福建
举报
版权申诉

网页正文信息抽取方法探析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网页正文信息抽取方法探析

网页正文信息抽取方法探析【摘要】网页信息抽取是网页数据挖掘、机器翻译等应用的基础，是当今的一个研究热点。在分析了已有的网页信息抽取方法基础上，对有待进一步研究的方向进行了展望。【关键词】网页信息抽取；HTML；网页 1.现有的网页信息抽取方法 1.1基于自然语言处理方式的信息抽取使用自然语言处理进行信息抽取，需要经过的处理步骤包括：句法分析、语义标注、专有对象的识别（如人物、公司）和抽取规则。具体说来就是把文本分割成多个句子，对一个句子的句子成分（part ofspeech，简称为POS）进行标记，然后将分析好的句子语法结构和事先定制的语言模式（规则）匹配，获得句子的内容即抽取信息。规则可由人工编制，也可从人工标注的语料库中自动学习获得。这类信息抽取技术中所用的抽取规则主要建立在词或词类间句法关系的基础上。基于自然语言处理方式在含有大量自由文本且句子完整、适合语法分析的网页中的信息抽取取得了较好效果。这种方式的缺陷是：（1）将网页页面视为普通文本处理，没有充分利用网页文档独特于普通文本的层次特性。获得有效的抽取规则需要大量的样本学习，处理速度比较慢，这对于网上海量信息来说是一个大问题。（2）网页页面中的文本通常不含有完整的句子，导致这种方法的适用范围较小。 1.2基于包装器归纳方式的信息抽取包装器归纳法是一种自动构造包装器的技术。主要思想是用归纳式学习方法生成抽取规则。用户在一系列的网页中标记出需要抽取的数据，系统在这些例子的基础上归纳出规则。这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页，这些例子就是高质量的。对于我们来说，提供好的样本网页要比提供明确的完整的规则要容易。归纳学习法作为一种机器学习方法用来学习包装器的规则，优于手动生成包装器等其他包装器生成方法的地方在于：自动归纳规则，减轻了人力负担、减少了人为错误，并且当网页页面变化时，能对规则做适当调整，适应这种变化。与自然语言处理方式比较，包装器较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术，更注重于文本结构和表现格式的分析。这种方式更适合于网页页面的信息抽取，使用包装器能充分发掘网页页面的结构和格式特征，能避免使用复杂的语言学知识，加快信息抽取的速度。使用包装器的困难在于：（1）包装器的针对性强，可扩展性差。一个包装器处理一种特定的信息源，从几个不同信息源中抽取信息，需要一系列的包装器程序库，造成巨大的工作量。（2）可重用性差。包装器对页面结构的依赖性强，当出现一类新的网页页面或旧的网页页面结构变化时，原来的包装器就会失效，无法从数据源中获得数据或得到错误的数据，这就提出了一个新的问题—包装器的维护，即包装器失效时，如何修复失效的包装器使之继续正确抽取数据。（3）缺乏对页面的语义理解。目前的包装器主要依赖于原网页或其后台数据库的模式，基本上是一种数据模式的还原，缺乏主动性的对数据的语义理解。 1.3基于Ontology方式的信息抽取 Ontology在哲学中泛指对客观世界的本体描述，在人工智能领域一般指智能系统中涉及的概念术语及其性质等静态知识的描述。基于Ontology的信息抽取主要是利用对数据本身的描述信息实现抽取，对网页结构的依赖较少。该系统最大的优点是对网页结构的依赖较少，只要事先创建的应用领域的Ontology足够强大，系统可以对某一应用领域中各种网页实现信息抽取。主要缺点是：（1）需要由领域专家创建某一应用领域的详细清晰的Ontology，工作量大。（2）由于是根据数据本身实现信息抽取的，因此在减少了对网页结构依赖的同时，增加了对网页中所含的数据结构的要求。如要求内容中包含时间、日期、功号码等有一定格式的内容。 1.4基于HTML结构的信息抽取该类信息抽取技术的特点是，根据网页页面的结构定位信息。在信息抽取之前通过解析器将网页文档解析成语法树，通过自动或半自动的方式产生抽取规则，将信息抽取转化为对语法树的操作实现信息抽取。以XWRAP为例进行分析。通过交互的方式，由用户在样本页中指定抽取区域的起始位置，系统确定整个抽取区域，并确定区域的类型（table，list等）然后通过可视化的方式，由用户在样本页中指定语义项（如表头）及与之对应的实例，系统自动产生抽取规则实现信息抽取，最后系统利用启发信息获得数据间的层次结构关系，生成XML文档。该系统对于不同的区域类型采用不同抽取规则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构的网页进行信息抽取，不支持对普通网页的抽取，模式的表达能力也非常有限，在学习阶段用户参与太多。 1.5基于网页查询的信息抽取上述的信息抽取工具，采用了不同的原理