- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web网页数据抽取软件设计及实现
Web网页数据抽取软件设计及实现随着Internet的迅速发展,Web已经成为人们获取信息的主要渠道之一,大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息,而不仅仅是浏览,应用程序必须从HTML形式的Web网页中抽取感兴趣的数据,并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据,所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上,利用最新的Web技术、信息处理技术和人工智能技术,完成了Web网页数据抽取包装器软件的设计,并通过Web新书发布页面信息抽取实验,分析了算法和系统的性能,验证了该包装器软件的可行性和高效性。
一、Web包装器的概念设计
定义Wrapper:给定一个包含一系列Web页面P(其中P={p1,p2Λ,pn})的Web数据源S,找到一个映射关系W,它可以将S中的P映射到一个数据集R,并且当pi,j ∈{1,Λ,n}结构变化不大的情况下能正确抽取数据。映射W就是通常所说的Web包装器(Wrapper)。
从功能上来说,Wrapper就是根据特定的抽取规则从特定的半结构化Web数据源执行数据抽取的程序。Wrapper的核心是抽取规则。抽取规则用于从每个HTML文档中抽取相关信息。
维护的步骤首先要进行Wrapper的验证,然后,进入维护过程。当页面发生变化时,Wrapper所抽取的数据就可能不正确或抽取不到数据,这样就触发了维护例程。维护在本质上是在新页面中重新建立抽取规则,从而完成Wrapper的自动修复过程。
Web信息抽取就是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)。信息抽取可以理解为一个从待处理文本中抽取信息,形成结构化的数据并存入一个数据库,供用户查询和使用的过程。因此为了完成信息的抽取和转化,Web包装器需要具有四个方面的能力:(1)信息定位:确定所需要的信息在文档中的位置;(2)数据抽取:将文本内容分字段抽取出数据;(3)数据组织:将抽取的数据按照正确的结构和语义组织起来;(4)可维护性:当Web页面发生变化时,Web包装器仍能正确抽取数据。因此,我们设计了一种高效的Web包装器算法如下:
输入:
- Config.xml配置文件:Web数据源S抽取规则定义;
- S:Web数据源;
- P:Web数据源S的Web页面,其中P={p1,p2Λ,pn};
- T:HTML解析后生成的DOM树,其中T={t1,Λ,tn};
- B:待抽取信息块,其中B={b1,K,bm};
- Express:表达式;
输出:
- R:抽取数据结果集R=R1,YR2KYRn
①利用JDOM解析Config.xml配置;
②R=(空数据集);
③for(int i=1; i<=n; i++)
{
解析S中的pi得到ti,即:pi→ti
从ti定位信息抽取块bj,即:ti→bj,其中j ∈{1,Λ,m}
//对于pi中得到的bj进行如下操作;
④for(int j=1; j<=m; j++)
{
用表达式Express从bj中析取数据,记作Ri j={rj1,Λ,rjk};
k表示从S中抽取数据生成k个字段的数据模型
}
⑤RetuRn Ri=Ri1YRi2ΛYRim},其中i ∈{1,Λ,n}
}
⑥RetuRn R=R1YR2ΛYRn
二、Web包装器软件的设计
根据以上算法,Web包装器的结构主要由3个模块组成:预定义模块、数据抽取模块和数据组织模块。其中预定义模块、数据抽取模块是Web包装器的核心部分。
1.预定义模块。预定义模块主要完成了抽取规则定义。本文设计的Web包装器是基于规则的抽取模型,考虑到这种包装器的可维护性和重用性,采用了通过解析XML配置文件(Config.xml)来完成信息定位和信息抽取。对于Web数据源页面发生了变动,则Web包装器的维护只需要更改针对此Web数据源的配置文件(Config.xml)即可。在网页组织形式变动不大的情况下,可以方便、快速地解决Web包装器的维护问题。预定义抽取规则Config.xml配置文件模板如下:
<?xml version=“1.0” encoding=“gb2312”?>
<config>
<url>Web源网页地址</url>
<beginPage
您可能关注的文档
- UF—1000i尿沉渣研究仪测定538份尿标本红细胞应用评价.doc
- TX6823S接收机系统及其多星接收.doc
- UF-50尿沉渣研究仪测定管型影响因素研究.doc
- T型钢板治疗桡骨下端骨折疗效观察.doc
- T管引流术后出院患者延续性护理.doc
- UBE立磨设备安装及维护.doc
- UNISAT中文版DW8620S2-CI高清接收机几种应用.doc
- UP UP商务新人升职记携手HP 450闯职场!.doc
- uPAR在维持人精子正常功能方面体外实验探究.doc
- USS复位固定结合球囊扩张椎体成形术治疗胸腰椎爆裂性骨折临床探究.doc
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)