ORBASE用于基于内容的Web查询研究.pdfVIP

下载本文档

1
0
约5.52千字
约 4页
2018-01-11 发布于广东
举报

ORBASE用于基于内容的Web查询研究.pdf

第十七届全国数据库学术会议论文集(技术报告蔫) ORBASE用于基于内容的Web查询王宇黄炜肖艳芹任建立李天柱 (河北大学计算中心保定 071002 wangyu@hbuedu.m) Absrtad EctractaigthesemanticinformationandrelationshipsontheWebpage,database motelwasocnstructedbysanerules.Thispaperpresentaocntent一basedqueryprocessingmethod forWebpagequayusinglongpathexpression,innerselection,projectionandsoondatabasetech- 川印肠万 Keywords ORBASE LongPathExpression Content一basedWebQuery 1 引言随着Imemet上的WWW应用f3益广泛对网上信息的查询和组织成为必需。HTML网页格式灵活，表现力丰富，但缺乏结构，很难使用快捷有效的查询手段。WX提出的XMI.是为了克服网上信息缺乏结构的缺点，便于对网页内容的查询。XHTML是XML与fil7vII.结合的产物，综合了二者的优点，目前的 10版处于不断变化和完善中。针对不同格式、内容的WWW信息的查询方法，WWW方和数据库方都提出了解决方案。数据库方解决方案是以数据库思想分析Web数据组织和表现形式，以数据库技术支持Web站点的管理、查询和表现形成一整套彻底的解决方案。目前，很多数据库厂商和研究饥构都推出了具体摸型和系统。主要有两方面的成果。一种以半结构化模型为基础，如OEM,ADM等，以.ore为代表，支持XMI查询，查询语言类似 OQL，支持长路径表达式。半结构化数据模型与Web页相似，利于转换，但不易利用成熟的查询优化技术。一种以传统关系、对象模型为基础，抽取Web页结构，转换成数据模型，以数据库技术查询处理。传统数据库有严格的结构在描述Web页信息时建摸方法是非常关键的，要求做到以下三点 1数据模型能准确表达Web页间的锚接关系和Web页内的语义信息 ‘ 2信息抽取规则具有普遍性。 3抽取信息既能充分用于查询，同时又能避免产生大量数据冗余由于HTML本身缺乏语义及结构信息描述，数据库方对HTML的查询方法在一段时间内遇到很大的难题，以标记为数据库结构的解决方法，可以实现信息的自动转换，但造成一倍的数据冗余。我们开发的()RBASE原型系统是对象关系数据库系统，我们在数据模型、查询能力、查询优化等各方面采取了支持Web查询的手段，用于基于内容的Web查询具有表达能力强，定位精确，效率高等特点的网页建模方法 2.1基本方法描述本文推出的基本方法是:从Wet，页中提出部分查询所需的信息存于数据库.并建立数据库中对象和 Web页地址之间的对应关系，在数据库中做基于内容的查询，找到相应对象，并根据对应网址找到相应的 1oo 第十七届全国数据库学术会议论文集(技术报告篇) 网页。实现这种方法，基于①ORBASE支持Wet查询的一些新特征;②页及页间联系与ORBASE模型的对应规则 2.2 ORRASF的数据模型ORM 1对象是数据模型的基本元家，有确定的类型或类约束。 2-类的属性分为零阶属性和高阶属性两种。零阶属性具有原子值，域是原子类型，包括多媒体类型声〔音、图形、图象、超文本等);高阶属性的值为对象或对象集合。 3.支持类的继承和多重继承 3.对象间的嵌套关系采用双向约束。从正反两向描述各种关系，查询方便。Web页间的锚接关系是单向的不能从底层网页查询高层网页.但数据库的双向约束可以克服这一点。 2.3 2网页信息的抽取规则实际要解决对网页间锚接关系和页内信息结构的抽取，建立与ORRASE模型的对应关系。规则1:结构相似的网页抽取相同的结构对应ORBASE中的类;对象与页为n:且关系。如上图，各系的教师页中保存多个教师的信息。类的属性

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

ORBASE用于基于内容的Web查询研究.pdfVIP