基于XML描述的WEB信息抽取技术研究(图文).docx

基于XML描述的WEB信息抽取技术研究(图文).docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于XML描述的WEB信息抽取技术研究(图文)

?

?

论文导读:怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。

关键词:数据抽取,XML,半结构化数据

?

1.引言

互联网已成为人们获得信息、取得服务的重要渠道之一。怎样对Web上大量的数据信息进行数据抽取成了现今数据挖掘研究的热点。

Web数据抽取是从网络中获得客户需要的文本、多媒体等信息的过程。例如:需要查找清华大学出版社新书的出版情况。发表论文。这就需要给出一个程序自动访问清华大学站点上的相关页面并返回有关数据。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。

2.XML与Web数据抽取

XML(extensibleMarkupLanguage)是由W3C设计,特别为Web应用服务的SGML(StandardGener2alMarkupLanguage)的一个重要分支,它是SGML的一个简化子集,将SCGL丰富的功能和HTML的易用性结合起来,以一种开放的、自我描述的方式定义数据结构。发表论文。XML解决了HTML不能解决的两个Web问题,一是Internet发展速度快而接入速度慢的问题,另一个是可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询抽取。发表论文。

3.数据抽取过程描述

Web页面抽取处理过程如下:

3.1获取页面

在数据抽取过程中,通过站点链接查找Web页面会遇到两种Web页,一是包含所需数据的Web页,二是包含所需数据的目标页面的超链接Web页。对Web站点的导航规则可以经过仔细分析目标站点,结合所需数据的特点进行手工编写或者借助于一些半自动化的工具编写。

3.2页面清洗

当前许多Web站点上的HTML代码并不是格式完整的,首先要把这种格式非良好的HTML文档转变成格式良好的XML文档,然后提取用户所需的信息。用XML标引的网络数据是一种半结构化的数据模型,通过具有语义的TAG可以清晰地标识网页的逻辑结构,从而能方便地实施准确的信息查询与模型抽取,完成异构网络数据的整合。将HTML文档转换成XML以便数据抽取,一般可采用过滤软件修复被破坏的结构,并产生一个良好的HTML结构,即XHTML,目前有一些对HTML页面设计进行规范化组织的工具,Tidy就是一种过滤HTML文本中错误的免费产品。使用由Tidy库提供的功能可以在XMLHelp1tidyHTML()方法中做转换,把URL作为参数进行方法调用,输出结果产生XML文档格式,如下代码可以实现。

Publicstaticvoidmain(Stringarg[])

{try

{Documentdoc=XMLHelper1tidyHTML(“PcatalogglobalPlcd1html”);

XMLHelper.outputXMLToFile(doc,”XML”+File.separator+lcd.xml”);

}

catch(XMLHelperExceptionxmle)

{//……}

}

3.3数据转换

假定已从某电子产品的相关网页上获取了有关新产品的信息,需要按照数字高清新产品(数字高清产品名、技术参数、类型、价格)这样的格式构造XML文件,本文采用XSLT的方法来进行转换,主要代码如下:

?xmlversion=”110”encoding=”UTF28”?

xsl:stylesheetversion=”110”xmlns:xsl=”

www1w31orgP2001PXSLPTransform

xsl:outputversion=”110”indent=”yes”encod2

ing=”UTF-8”omit-xml-declaration=”no”method

=”xml”P

!-建立根元素寻找信息的引用点-

xsl:templatematch=”Phtml”

Result

Item

xsl:apply-templatesP

Item

Result

Pxsl:template

!-匹配需要的信息内容-

x

文档评论(0)

135****0879 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档