信息集成系统中HTML2XML地研究.pdfVIP

  • 3
  • 0
  • 约 4页
  • 2017-08-16 发布于安徽
  • 举报
信息集成系统中HTML2XML的研究 ResearchonHTMLZXMLinInformation IntegrationSystem 商超1李建中“2何震瀛2 (黑龙江大学计算机科学技术学院哈尔滨150001)1 (哈尔滨工业大学计算机科学与工程系 哈尔滨150001)2 AbstractXMLhas asWebdata and this recentlyemerged representation standard.Inpaper.Wepro— exchange videasemiautomaticinformationextractionandconverslonmethod,whichbased0ndocumentmodel,ac— object tO and HTMLXMLdatafeatures.Moseover·wea themethodwemen- cording implementprototypesystemusing tioned.whichcanconvertHTMLdataontheWebintoXMLdata efficiently. XML,Informationextraction.DOM Keywords HTML数据到XML数据的转化原型系统 1 引言 息以及用户与系统之间的交互实现了由HTML数 近年来,Internet已经成为人们获取信息的主 要工具,它提供世界范围内网络互连和通信,而 据到XML数据的半自动转化。本文的研究内容不 Web则成为环球信息资源库。为了有效地组织和交 包含对查询请求的转换,仅涉及HTML页面信息 的转换。利用本文提出的方法可以构建信息集成系 换Web数据,W3C提出了Web数据组织和交换的 统中的包装器软件。 新标准XML(eXtendedMarkupLanguage)[I]。根据 XML特有的自描述性及结构化特性,领域工作人 本文的研究内容基于如下假设; 员可以在遵照统一行业标准的前提下创建数据以便 1.由样本页产生的提取规则仅适用于具有相同 主题且对应数据的区域具有基本相同结构的Web 共享。可见,XML技术对于Internet数据交换与数 数据源中的一类相似页面。 据管理具有重要的意义,以XML作为表现形式的 2.处理的目标HTML页面应该符合XHTML 数据必将迅速增长。然而,由于XML技术出现时间 规范”]。尽管原型系统中采用Jtidy口3处理格式不完 较晚,Web上仍旧存在大量HTML数据,其间蕴含 整的HTML目标页面,但这种处理方法需要人工 大量信息,由于没有统一标准,这些信息只适合浏 干预,降低了原型系统的转换效率。为了提高转化的 览,而不适合进行数据交换。因此,需要利用信息提

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档