基于XML技术WEB数据收集模型研究.docVIP

下载本文档

1
0
约3.07千字
约 7页
2018-05-28 发布于福建
举报
版权申诉

基于XML技术WEB数据收集模型研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML技术WEB数据收集模型研究

基于XML技术WEB数据收集模型研究　　摘要：该文提出了一种基于XML技术的WEB数据收集模型，并实现了其中的一些主要功能。同时针对模型系统的不足做了一些有意义的改进探索。　　关键词：XML；WEB；数据收集；RDF 　　中图分类号：TP311文献标识码：A文章编号：1007-9599 (2011) 24-0000-01 　　XML-based Web Data Collection Model Study 　　Zhang Rubing,Lai Jianjun 　　(Jilin Oilfield Communications Company,Songyuan138000,China) 　　Abstract:This paper proposes an XML-based Web data collection model,and implemented some of the major features.For lack of model systems to do some meaningful improvements in exploration. 　　Keywords:XML;The WEB;Data collection;RDF 　　一、XML简介　　XML是由W3C发布的一种新标准，它是SGML的一个简化子集，将SGML丰富的功能和HTML的易用性结合起来，以一种开放的、自我描述的方式定义数据结构。XML文档由标记和字符数据组成，通过DTD或Schema使XML文档结构化，这样很容易验证文档数据的合法性，容易提取（查询）文档中的数据。可以利用CSS或XSL在浏览器中实现同一XML文档的多种显示形式，因而可满足WEB多种接入设备的显示要求，利用XSLT也可方便地将XML文档译为HTML文档或者不同标记表示的XML文档。　　二、基于XML的WEB数据收集模型　　（一）模型设计。这个模型是建立在XML技术上的，它包括下面几个主要问题：在某个站点通过超链接找到目标HTML页（页面导航），从这个HTML页面中取得相关信息（数据抽取），过滤这些信息并提高他们的结构化（XML文档的存储），根据用户需求查询相关信息（XML文档的查询）。　　1.页面导航。在数据收集过程中会遇到两种HTML页：包含所需数据的HTML页和链接到所需数据页的HTML页。对WEB站点的导航规则可以经过仔细分析目标站点，结合所需数据的特点进行手工编写或者借助于一些半自动化的工具编写。　　2.数据抽取。根据用户需求，抽取相关HTML页面上的信息。当前许多WEB站点上的HTML代码并不是格式完整的，换句话说HTML对格式完整并没有什么严格要求，解析HTML的浏览器如IE或Netscape都可以容忍一定格式上的缺陷。因此，首先要把这种格式非良好的HTML文档转变成格式良好的XML文档。其次通过分析XML文档提取用户??需的信息。　　3.XML文档存储。XML数据的存储技术目前已获得广泛研究，除一些通用的存储系统外，一些专用的存储系统也相继出现，如斯坦福大学研制的Lore系统是较为突出的一个。XML数据存储的三种方式：存储于文件系统中、存储于数据库系统中、建立专门的存储系统，对各个系统的优缺点进行分析和比较。　　4.XML文档查询。XML数据的查询语言应该能够表达基于内容查询，允许从一个或多个XML数据源中提取所需信息，因此在模型中选用了由ATT实验室提出的一种基于XML的查询语言XML-QL（XQL）。XML-QL是在查询语言（UnQL和StruQL）基础上设计的，它能对XML文档进行查询、构造、转换和集成。XML-QL集中了查询语言技术和XML语法格式，通过说明路径表达式和模式的方式，给出XML数据的提取条件（WHERE子句），同时XML-QL中可以给出构造查询输出的XML数据的模板，其输出结果仍为XML文档（CONSTRTUCT子句）。　　Where 　　计算机系　　$n 　　$c 　　$cn 　　$e 　　in www.xxx.省略/kjc/research.xml 　　Construct 　　$n 　　$c 　　$cn 　　$e 　　这个查询要求取回所有由计算机系申报的科研项目（项目名、内容、负责人、经费）。可以看到XML-QL与SQL非常相似，强大的查询能力完全可用来实现XML数据的重构和不同数据源集成的数据视图。　　（二）关于数据抽取功能的实现。数据抽取是模型实现的一项重要子功能，怎样把HTML页面上相关信息提取出来作为用户应用的需要，这些应用可以是简单的终端浏览器显示、是文本文件、也可以存到特定的库中作为数据挖掘的来源。该文的思想是将HTML文档转变成XML文档