ORBASE用于基于内容的Web查询研究.pdfVIP

  • 1
  • 0
  • 约5.52千字
  • 约 4页
  • 2018-01-11 发布于广东
  • 举报
第十七届全国数据库学术会议论文集(技术报告蔫) ORBASE用于基于内容的Web查询 王 宇 黄 炜 肖艳芹 任建立 李天柱 (河北大学计算中心 保定 071002 wangyu@hbuedu.m) Absrtad EctractaigthesemanticinformationandrelationshipsontheWebpage,database motelwasocnstructedbysanerules.Thispaperpresentaocntent一basedqueryprocessingmethod forWebpagequayusinglongpathexpression,innerselection,projectionandsoondatabasetech- 川印肠万 Keywords ORBASE LongPathExpression Content一basedWebQuery 1 引 言 随着Imemet上的WWW应用f3益广泛 对网上信息的查询和组织成为必需。HTML网页格式灵活, 表现力丰富,但缺乏结构,很难使用快捷有效的查询手段。WX提出的XMI.是为了克服网上信息缺乏结 构的缺点,便于对网页内容的查询。XHTML是XML与fil7vII.结合的产物,综合了二者的优点,目前的 10版处于不断变化和完善中。 针对不同格式、内容的WWW信息的查询方法,WWW方和数据库方都提出了解决方案。数据库方解 决方案是以数据库思想分析Web数据组织和表现形式,以数据库技术支持Web站点的管理、查询和表现 形成一整套彻底的解决方案。目前,很多数据库厂商和研究饥构都推出了具体摸型和系统。主要有两方 面的成果。一种以半结构化模型为基础,如OEM,ADM等,以.ore为代表,支持XMI查询,查询语言类似 OQL,支持长路径表达式。半结构化数据模型与Web页相似,利于转换,但不易利用成熟的查询优化技术。 一种以传统关系、对象模型为基础,抽取Web页结构,转换成数据模型,以数据库技术查询处理。 传统数据库有严格的结构 在描述Web页信息时建摸方法是非常关键的,要求做到以下三点 1数据模型能准确表达Web页间的锚接关系和Web页内的语义信息 ‘ 2信息抽取规则具有普遍性。 3抽取信息既能充分用于查询,同时又能避免产生大量数据冗余 由于HTML本身缺乏语义及结构信息描述,数据库方对HTML的查询方法在一段时间内遇到很大的 难题,以标记为数据库结构的解决方法,可以实现信息的自动转换,但造成一倍的数据冗余。 我们开发的()RBASE原型系统是对象关系数据库系统,我们在数据模型、查询能力、查询优化等各方 面采取了支持Web查询的手段,用于基于内容的Web查询具有表达能力强,定位精确,效率高等特点 的网页建模方法 2.1基本方法描述 本文推出的基本方法是:从Wet,页中提出部分查询所需的信息存于数据库.并建立数据库中对象和 Web页地址之间的对应关系,在数据库中做基于内容的查询,找到相应对象,并根据对应网址找到相应的 1oo 第十七届全国数据库学术会议论文集(技术报告篇) 网页。 实现这种方法,基于①ORBASE支持Wet查询的一些新特征;②页及页间联系与ORBASE模型的对 应规则 2.2 ORRASF的数据模型ORM 1对象是数据模型的基本元家,有确定的类型或类约束。 2-类的属性分为零阶属性和高阶属性两种。零阶属性具有原子值,域是原子类型,包括多媒体类型 声〔音、图形、图象、超文本等);高阶属性的值为对象或对象集合。 3.支持类的继承和多重继承 3.对象间的嵌套关系采用双向约束。从正反两向描述各种关系,查询方便。Web页间的锚接关系是 单向的不能从底层网页查询高层网页.但数据库的双向约束可以克服这一点。 2.3 2网页信息的抽取规则 实际要解决对网页间锚接关系和页内信息结构的抽取,建立与ORRASE模型的对应关系。 规则1:结构相似的网页抽取相同的结构对应ORBASE中的类;对象与页为n:且关系。如上图,各系 的教师页中保存多个教师的信息。类的属性

文档评论(0)

1亿VIP精品文档

相关文档