- 3
- 0
- 约 4页
- 2017-08-16 发布于安徽
- 举报
信息集成系统中HTML2XML的研究
ResearchonHTMLZXMLinInformation
IntegrationSystem
商超1李建中“2何震瀛2
(黑龙江大学计算机科学技术学院哈尔滨150001)1
(哈尔滨工业大学计算机科学与工程系 哈尔滨150001)2
AbstractXMLhas asWebdata and this
recentlyemerged representation standard.Inpaper.Wepro—
exchange
videasemiautomaticinformationextractionandconverslonmethod,whichbased0ndocumentmodel,ac—
object
tO and
HTMLXMLdatafeatures.Moseover·wea themethodwemen-
cording implementprototypesystemusing
tioned.whichcanconvertHTMLdataontheWebintoXMLdata
efficiently.
XML,Informationextraction.DOM
Keywords
HTML数据到XML数据的转化原型系统
1 引言
息以及用户与系统之间的交互实现了由HTML数
近年来,Internet已经成为人们获取信息的主
要工具,它提供世界范围内网络互连和通信,而 据到XML数据的半自动转化。本文的研究内容不
Web则成为环球信息资源库。为了有效地组织和交 包含对查询请求的转换,仅涉及HTML页面信息
的转换。利用本文提出的方法可以构建信息集成系
换Web数据,W3C提出了Web数据组织和交换的
统中的包装器软件。
新标准XML(eXtendedMarkupLanguage)[I]。根据
XML特有的自描述性及结构化特性,领域工作人 本文的研究内容基于如下假设;
员可以在遵照统一行业标准的前提下创建数据以便 1.由样本页产生的提取规则仅适用于具有相同
主题且对应数据的区域具有基本相同结构的Web
共享。可见,XML技术对于Internet数据交换与数
数据源中的一类相似页面。
据管理具有重要的意义,以XML作为表现形式的
2.处理的目标HTML页面应该符合XHTML
数据必将迅速增长。然而,由于XML技术出现时间
规范”]。尽管原型系统中采用Jtidy口3处理格式不完
较晚,Web上仍旧存在大量HTML数据,其间蕴含
整的HTML目标页面,但这种处理方法需要人工
大量信息,由于没有统一标准,这些信息只适合浏
干预,降低了原型系统的转换效率。为了提高转化的
览,而不适合进行数据交换。因此,需要利用信息提
您可能关注的文档
- 硅树脂-聚硅氧烷压敏胶地研究.pdf
- 初中生亲子关系特性地研究.pdf
- 大型复杂曲面水火弯板智能机器人控制系统的研究与设计.pdf
- 中药通草的化学成分的研究.pdf
- XML-based开放性MetaData交换机制之研究%3a应用于商业智慧系统和企业物件化.pdf
- 层合板-半穿透贴补法-修补后的强度的研究.pdf
- 碳%2f碳复合材料高温抗氧化涂层研究和自愈合性质.pdf
- 快速独立分量变换和去噪研究.pdf
- 硬件因素对LogP+模型参数影响地研究.pdf
- 一种基于液晶技术的可调谐滤波器的研究.pdf
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
原创力文档

文档评论(0)