ORBASE用于基于内容的Web查询.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十七届全国数据库学术会议论文集(技术报告蔫) ORBASE用于基于内容的Web查询 王 宇 黄 炜 肖艳芹 任建立 李天柱 (河北大学计算中心 保定 071002 wangyu@hbuedu.m) Absrtad EctractaigthesemanticinformationandrelationshipsontheWebpage,database motelwasocnstructedbysanerules.Thispaperpresentaocntent一basedqueryprocessingmethod forWebpagequayusinglongpathexpression,innerselection,projectionandsoondatabasetech- 川印肠万 Keywords ORBASE LongPathExpression Content一basedWebQuery 1 引 言 随着Imemet上的WWW应用f3益广泛 对网上信息的查询和组织成为必需。HTML网页格式灵活, 表现力丰富,但缺乏结构,很难使用快捷有效的查询手段。WX提出的XMI.是为了克服网上信息缺乏结 构的缺点,便于对网页内容的查询。XHTML是XML与fil7vII.结合的产物,综合了二者的优点,目前的 10版处于不断变化和完善中。 针对不同格式、内容的WWW信息的查询方法,WWW方和数据库方都提出了解决方案。数据库方解 决方案是以数据库思想分析Web数据组织和表现形式,以数据库技术支持Web站点的管理、查询和表现 形成一整套彻底的解决方案。目前,很多数据库厂商和研究饥构都推出了具体摸型和系统。主要有两方 面的成果。一种以半结构化模型为基础,如OEM,ADM等,以.ore为代表,支持XMI查询,查询语言类似 OQL,支持长路径表达式。半结构化数据模型与Web页相似,利于转换,但不易利用成熟的查询优化技术。 一种以传统关系、对象模型为基础,抽取Web页结构,转换成数据模型,以数据库技术查询处理。 传统数据库有严格的结构 在描述Web页信息时建摸方法是非常关键的,要求做到以下三点 1数据模型能准确表达Web页间的锚接关系和Web页内的语义信息 ‘ 2信息抽取规则具有普遍性。 3抽取信息既能充分用于查询,同时又能避免产生大量数据冗余 由于HTML本身缺乏语义及结构信息描述,数据库方对HTML的查询方法在一段时间内遇到很大的 难题,以标记为数据库结构的解决方法,可以实现信息的自动转换,但造成一倍的数据冗余。 我们开发的()RBASE原型系统是对象关系数据库系统,我们在数据模型、查询能力、查询优化等各方 面采取了支持Web查询的手段,用于基于内容的Web查询具有表达能力强,定位精确,效率高等特点 的网页建模方法 2.1基本方法描述 本文推出的基本方法是:从Wet,页中提出部分查询所需的信息存于数据库.并建立数据库中对象和 Web页地址之间的对应关系,在数据库中做基于内容的查询,找到相应对象,并根据对应网址找到相应的 1oo 第十七届全国数据库学术会议论文集(技术报告篇) 网页。 实现这种方法,基于①ORBASE支持Wet查询的一些新特征;②页及页间联系与ORBASE模型的对 应规则 2.2 ORRASF的数据模型ORM 1对象是数据模型的基本元家,有确定的类型或类约束。 2-类的属性分为零阶属性和高阶属性两种。零阶属性具有原子值,域是原子类型,包括多媒体类型 声〔音、图形、图象、超文本等);高阶属性的值为对象或对象集合。 3.支持类的继承和多重继承 3.对象间的嵌套关系采用双向约束。从正反两向描述各种关系,查询方便。Web页间的锚接关系是 单向的不能从底层网页查询高层网页.但数据库的双向约束可以克服这一点。 2.3 2网页信息的抽取规则 实际要解决对网页间锚接关系和页内信息结构的抽取,建立与ORRASE模型的对应关系。 规则1:结构相似的网页抽取相同的结构对应ORBASE中的类;对象与页为n:且关系。如上图,各系 的教师页中保存多个教师的信息。类的属性

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档