Web网页数据抽取软件设计及实现.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web网页数据抽取软件设计及实现

Web网页数据抽取软件设计及实现随着Internet的迅速发展,Web已经成为人们获取信息的主要渠道之一,大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息,而不仅仅是浏览,应用程序必须从HTML形式的Web网页中抽取感兴趣的数据,并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据,所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上,利用最新的Web技术、信息处理技术和人工智能技术,完成了Web网页数据抽取包装器软件的设计,并通过Web新书发布页面信息抽取实验,分析了算法和系统的性能,验证了该包装器软件的可行性和高效性。 一、Web包装器的概念设计 定义Wrapper:给定一个包含一系列Web页面P(其中P={p1,p2Λ,pn})的Web数据源S,找到一个映射关系W,它可以将S中的P映射到一个数据集R,并且当pi,j ∈{1,Λ,n}结构变化不大的情况下能正确抽取数据。映射W就是通常所说的Web包装器(Wrapper)。 从功能上来说,Wrapper就是根据特定的抽取规则从特定的半结构化Web数据源执行数据抽取的程序。Wrapper的核心是抽取规则。抽取规则用于从每个HTML文档中抽取相关信息。 维护的步骤首先要进行Wrapper的验证,然后,进入维护过程。当页面发生变化时,Wrapper所抽取的数据就可能不正确或抽取不到数据,这样就触发了维护例程。维护在本质上是在新页面中重新建立抽取规则,从而完成Wrapper的自动修复过程。 Web信息抽取就是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)。信息抽取可以理解为一个从待处理文本中抽取信息,形成结构化的数据并存入一个数据库,供用户查询和使用的过程。因此为了完成信息的抽取和转化,Web包装器需要具有四个方面的能力:(1)信息定位:确定所需要的信息在文档中的位置;(2)数据抽取:将文本内容分字段抽取出数据;(3)数据组织:将抽取的数据按照正确的结构和语义组织起来;(4)可维护性:当Web页面发生变化时,Web包装器仍能正确抽取数据。因此,我们设计了一种高效的Web包装器算法如下: 输入: - Config.xml配置文件:Web数据源S抽取规则定义; - S:Web数据源; - P:Web数据源S的Web页面,其中P={p1,p2Λ,pn}; - T:HTML解析后生成的DOM树,其中T={t1,Λ,tn}; - B:待抽取信息块,其中B={b1,K,bm}; - Express:表达式; 输出: - R:抽取数据结果集R=R1,YR2KYRn ①利用JDOM解析Config.xml配置; ②R=(空数据集); ③for(int i=1; i<=n; i++) { 解析S中的pi得到ti,即:pi→ti 从ti定位信息抽取块bj,即:ti→bj,其中j ∈{1,Λ,m} //对于pi中得到的bj进行如下操作; ④for(int j=1; j<=m; j++) { 用表达式Express从bj中析取数据,记作Ri j={rj1,Λ,rjk}; k表示从S中抽取数据生成k个字段的数据模型 } ⑤RetuRn Ri=Ri1YRi2ΛYRim},其中i ∈{1,Λ,n} } ⑥RetuRn R=R1YR2ΛYRn 二、Web包装器软件的设计 根据以上算法,Web包装器的结构主要由3个模块组成:预定义模块、数据抽取模块和数据组织模块。其中预定义模块、数据抽取模块是Web包装器的核心部分。 1.预定义模块。预定义模块主要完成了抽取规则定义。本文设计的Web包装器是基于规则的抽取模型,考虑到这种包装器的可维护性和重用性,采用了通过解析XML配置文件(Config.xml)来完成信息定位和信息抽取。对于Web数据源页面发生了变动,则Web包装器的维护只需要更改针对此Web数据源的配置文件(Config.xml)即可。在网页组织形式变动不大的情况下,可以方便、快速地解决Web包装器的维护问题。预定义抽取规则Config.xml配置文件模板如下: <?xml version=“1.0” encoding=“gb2312”?> <config> <url>Web源网页地址</url> <beginPage

您可能关注的文档

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档