- 3
- 0
- 约6.76千字
- 约 16页
- 2017-01-15 发布于天津
- 举报
一种基于dom的web信息提取方法
一种基于DOM的Web信息提取方法
摘nbsp; 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。
关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断
nbsp;
1 引言
nbsp;nbsp;nbsp;nbsp;nbsp;nbsp; Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂的Web信息库中准确地获取信息的困难。例如,使用搜索引擎搜
索信息时,返回信息成千上万,其中包含大量无用甚至是错误的信息,进行人工挑选要耗费时间和精力。另外,由于网页的编写方式,编写风格各种各样,使得所搜集的信息也不适于结构化存储。本文提出了一种基于DOM[1]的Web信息提取方法,利用DOM提取信息,并进行相关信息源的搜索,实现信息的精确定位。
2 基本思想
nbsp;nbsp;nbsp;nbsp;nbsp; 本文的基本思想是:将不够规范的HTML文档整理成格式良好的XHTML[2]文档,再将XHTML文档解析成一个树模型——DOM树,然后围绕DOM树进行信息的提取以及相似结构网页的搜索,提取的结果以XML文档表示,并进行结构化存储。如图1所示:
图1 设计思想
以下是对各个处理步骤的分析说明:
2.1 整理
nbsp;nbsp;nbsp;nbsp;nbsp;nbsp; HTML用一对预定义的标记来描述包含在其间文本的表现方式,要求标记成对出现。事实上,有许多HTML文档中的标记不符合HTML语法要求,比如缺乏结束标记等。这些错误影响对HTML文档的正确解析,因此,为便于解析,首先要对HTML文档进行整理,将其转换成XHTML文档,XHTML严格建立在XML基础之上,并且明确定义了格式良好的文档规则。这样就可以像对待一般XML文档一样对待XHTML文档,可以利用各种XML标准技术来操纵XHTML文档。
对HTML文档的整理主要是以下三个方面:
nbsp;nbsp;nbsp;nbsp;nbsp; (1)为不成对的标记加上结束符“/”,例如lt;brgt;加上结束符为lt;br /gt;;
nbsp;nbsp;nbsp;nbsp;nbsp; (2)为所有属性值加上引号,例如,lt;a href=gt;加上引号变为lt;a href=””gt;;
nbsp;nbsp;nbsp;nbsp;nbsp; (3)将URL中所有的“\”换成“/”。
2.2 解析
nbsp;nbsp;nbsp;nbsp;nbsp;nbsp; 解析,就是将经过转换得到的XHTML文档构造成DOM树,将文档中的元素映射成DOM树中的节点。
nbsp;nbsp;nbsp;nbsp;nbsp; DOM全称是文档对象模型(Document Object Model, DOM),它根据文档中标记之间的嵌套关系,将文档表示为一个树形结构,文档中的元素、属性、以分析的字符数据、注释以及处理指令等都是节点。Document是文档根,是操作整个DOM树的句柄。
nbsp;nbsp;nbsp;nbsp;nbsp; DOM树是面向对象的文档模型,树中的节点都是接口,它们派生于Node接口,每个节点都有各自的特性和操作,处理节点比较方便。
nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;当解析生成DOM树之后,对HTML文档中信息的提取,就转换成为对DOM树中相应节点的查找,节点位置由定位规则指出,提取模式中的模板按照定位规则的指示提取出相应位置的信息。
nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;解析的处理过程如下,首先找出网页中所有的开始标记,将其名称存入标记表。接着逐次找出网页中每个标记,并检查其是不是一个有开始标记与其对应的结束标记或者是注释标记,如果是没有对应开始标记的结束标记或者是注释标记,就删除该标记;否则,如果是有对应开始标记的结束标记,就将这个结束标记与其开始标记之间的内容存储到标记表中,这个内容就是叶节点,重复操作,直到网页中每个标记都处理完之后,就建立了一个由标记及其所包含内容构成的表,整棵树被分解成n棵子树存入表中。然后,将lt;htmlgt;标记设置为根节点,将表中n棵子树顺次添加到根节点下,形成一棵n叉树。
2.3 信息提取
nbsp;nbsp;nbsp; nbsp;提取信息分两步,现生成提取模式,然后利用提取模式提取信息。
2.3.1 提取模式生成
nbsp;nbsp;nbsp;nbsp; 生成提取模式分三个步骤,归纳单个样本网页信息块定位路径,归纳样本网页集
原创力文档

文档评论(0)