Web网页数据抽取软件设计及实现.doc

下载文档 降价啦

4
0
约 7页
2017-08-29 发布于福建
举报
版权申诉
保障服务

Web网页数据抽取软件设计及实现.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web网页数据抽取软件设计及实现

Web网页数据抽取软件设计及实现随着Internet的迅速发展，Web已经成为人们获取信息的主要渠道之一，大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息，而不仅仅是浏览，应用程序必须从HTML形式的Web网页中抽取感兴趣的数据，并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据，所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上，利用最新的Web技术、信息处理技术和人工智能技术，完成了Web网页数据抽取包装器软件的设计，并通过Web新书发布页面信息抽取实验，分析了算法和系统的性能，验证了该包装器软件的可行性和高效性。一、Web包装器的概念设计定义Wrapper：给定一个包含一系列Web页面P（其中P={p1，p2Λ，pn}）的Web数据源S，找到一个映射关系W，它可以将S中的P映射到一个数据集R，并且当pi，j ∈{1，Λ，n}结构变化不大的情况下能正确抽取数据。映射W就是通常所说的Web包装器（Wrapper）。从功能上来说，Wrapper就是根据特定的抽取规则从特定的半结构化Web数据源执行数据抽取的程序。Wrapper的核心是抽取规则。抽取规则用于从每个HTML文档中抽取相关信息。维护的步骤首先要进行Wrapper的验证，然后，进入维护过程。当页面发生变化时，Wrapper所抽取的数据就可能不正确或抽取不到数据，这样就触发了维护例程。维护在本质上是在新页面中重新建立抽取规则，从而完成Wrapper的自动修复过程。 Web信息抽取就是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据，并将其转化为结构和语义更为清晰的格式（XML、关系数据、面向对象的数据等）。信息抽取可以理解为一个从待处理文本中抽取信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。因此为了完成信息的抽取和转化，Web包装器需要具有四个方面的能力：（1）信息定位：确定所需要的信息在文档中的位置；（2）数据抽取：将文本内容分字段抽取出数据；（3）数据组织：将抽取的数据按照正确的结构和语义组织起来；（4）可维护性：当Web页面发生变化时，Web包装器仍能正确抽取数据。因此，我们设计了一种高效的Web包装器算法如下：输入： - Config.xml配置文件：Web数据源S抽取规则定义； - S：Web数据源； - P：Web数据源S的Web页面，其中P={p1，p2Λ，pn}； - T：HTML解析后生成的DOM树，其中T={t1，Λ，tn}； - B：待抽取信息块，其中B={b1，K，bm}； - Express：表达式；输出： - R：抽取数据结果集R=R1，YR2KYRn ①利用JDOM解析Config.xml配置； ②R=（空数据集）； ③for（int i=1； i＜=n； i++） { 解析S中的pi得到ti，即：pi→ti 从ti定位信息抽取块bj，即：ti→bj，其中j ∈{1，Λ，m} //对于pi中得到的bj进行如下操作； ④for（int j=1； j＜=m； j++） { 用表达式Express从bj中析取数据，记作Ri j={rj1，Λ，rjk}； k表示从S中抽取数据生成k个字段的数据模型 } ⑤RetuRn Ri=Ri1YRi2ΛYRim}，其中i ∈{1，Λ，n} } ⑥RetuRn R=R1YR2ΛYRn 二、Web包装器软件的设计根据以上算法，Web包装器的结构主要由3个模块组成：预定义模块、数据抽取模块和数据组织模块。其中预定义模块、数据抽取模块是Web包装器的核心部分。 1.预定义模块。预定义模块主要完成了抽取规则定义。本文设计的Web包装器是基于规则的抽取模型，考虑到这种包装器的可维护性和重用性，采用了通过解析XML配置文件（Config.xml）来完成信息定位和信息抽取。对于Web数据源页面发生了变动，则Web包装器的维护只需要更改针对此Web数据源的配置文件（Config.xml）即可。在网页组织形式变动不大的情况下，可以方便、快速地解决Web包装器的维护问题。预定义抽取规则Config.xml配置文件模板如下：＜?xml version=“1.0” encoding=“gb2312”?＞＜config＞＜url＞Web源网页地址＜/url＞＜beginPage