一种基于DOM的Web信息提取方法_计算机论文.docVIP

一种基于DOM的Web信息提取方法_计算机论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于DOM的Web信息提取方法_计算机论文.doc

一种基于DOM的Web信息提取方法_计算机论文 一种基于DOM的Web信息提取方法_计算机论文 摘 要 文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。 关键词 Web信息提取;DOM;XPath;XSLT;基于DOM的网页结构判断1 引言 Web信息的爆炸性增长,给我们带来了获取更多信息的机会,同时,也增加了在纷繁复杂的Web信息库中准确地获取信息的困难。例如,使用搜索引擎搜 索信息时,返回信息成千上万,其中包含大量无用甚至是错误的信息,进行人工挑选要耗费时间和精力。另外,由于网页的编写方式,编写风格各种各样,使得所搜集的信息也不适于结构化存储。本文提出了一种基于DOM[1]的Web信息提取方法,利用DOM提取信息,并进行相关信息源的搜索,实现信息的精确定位。 2 基本思想 本文的基本思想是:将不够规范的HTML文档整理成格式良好的XHTML[2]文档,再将XHTML文档解析成一个树模型——DOM树,然后围绕DOM树进行信息的提取以及相似结构网页的搜索,提取的结果以XML文档表示,并进行结构化存储。如图1所示: 图1 设计思想 以下是对各个处理步骤的分析说明: 2.1 整理 HTML用一对预定义的标记来描述包含在其间文本的表现方式,要求标记成对出现。事实上,有许多HTML文档中的标记不符合HTML语法要求,比如缺乏结束标记等。这些错误影响对HTML文档的正确解析,因此,为便于解析,首先要对HTML文档进行整理,将其转换成XHTML文档,XHTML严格建立在XML基础之上,并且明确定义了格式良好的文档规则。这样就可以像对待一般XML文档一样对待XHTML文档,可以利用各种XML标准技术来操纵XHTML文档。 对HTML文档的整理主要是以下三个方面: (1)为不成对的标记加上结束符“/”,例如brgt加上结束符为br /gt; (2)为所有属性值加上引号,例如,a href=(3) 信息块内信息点定位 确定了样本集合中信息块的定位路径之后,可以通过在信息块内先序遍历得到具体信息点的定位路径,这个定位路径用XPath[3]表示。 2.3.2 提取信息 利用归纳学习得到的XPath,编写XSLT[4]文档,就可以根据该文档转换DOM中的节点,生成一个XML文档,这个XML文档中只保留XPath指定的节点,从而完成信息提取。 2.4 相似网页搜索 生成的提取模式可以重用于结构相似的网页,因此,需要判断所搜集的网页是否适用于已有提取模式。本文提出利用DOM判断所搜集网页是否与样本结构相似,进而确定是否可利用已有模式提取所搜集网页中的信息。 2.4.1 判断相似网页 从一个网页到DOM的转换来看,网页中的元素都是以嵌套关系转换成为DOM树中的节点,每个元素在DOM树中都有固定位置的节点对应,可以将这个转换过程抽象成一个函数: 设网页标记E和DOM树节点N是两个集合,一个从E到N的函数f记为:E—gtN,是一个满足以下条件的关系: 对每一个e E,都存在唯一的n N,使e,ngt f,记作f(e)=n,E是函数f的前域,N是函数f的陪域。在表达式f(e)=n中,e是函数的自变元,n是对应于自变元e的函数值。 从函数的定义可以看出,如果f(e)=nshy1,f(e)=n2,那么n1=n2。也就是说,一个自变元在一个特定函数下,有唯一的函数值与之对应。利用这种关系可以推断出一个网页标记集合按照嵌套关系只能影射为一个DOM树,这样,判断两个网页结构是否相似可以转换为判断两个网页解析得到的DOM树是否相似。 算法描述如下: 先序遍历测试网页的节点列表NodeList1; 获得NodeList1的长度Length1; 先序遍历样本网页的节点列表NodeList2; 获得NodeList2的长度Length2; if(Length1=Length2){ for(i=1;i=Length1;i++){ 取得NodeList1的第i个节点Node1i; 取得Node1i的节点名NodeName1i; 取得NodeList2的第i个节点Node2i; 取得Node2i的节点名NodeName2i; if(NodeName1i不同于NodeName2i){ return false; break; } } retuen true; } else{ return false; } 2.4.2 搜集相似网页 本文设计了结合判断网页结构的爬虫算法,来完成相关信息源的搜集。 算法描述如下: /**初始化*/ 设定搜索深度Depath; 设定当前搜索深度c

您可能关注的文档

文档评论(0)

wyj199216 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档