- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十七届全国数据库学术会议论文集(技术报告蔫)
ORBASE用于基于内容的Web查询
王 宇 黄 炜 肖艳芹 任建立 李天柱
(河北大学计算中心 保定 071002 wangyu@hbuedu.m)
Absrtad EctractaigthesemanticinformationandrelationshipsontheWebpage,database
motelwasocnstructedbysanerules.Thispaperpresentaocntent一basedqueryprocessingmethod
forWebpagequayusinglongpathexpression,innerselection,projectionandsoondatabasetech-
川印肠万
Keywords ORBASE LongPathExpression Content一basedWebQuery
1 引 言
随着Imemet上的WWW应用f3益广泛 对网上信息的查询和组织成为必需。HTML网页格式灵活,
表现力丰富,但缺乏结构,很难使用快捷有效的查询手段。WX提出的XMI.是为了克服网上信息缺乏结
构的缺点,便于对网页内容的查询。XHTML是XML与fil7vII.结合的产物,综合了二者的优点,目前的
10版处于不断变化和完善中。
针对不同格式、内容的WWW信息的查询方法,WWW方和数据库方都提出了解决方案。数据库方解
决方案是以数据库思想分析Web数据组织和表现形式,以数据库技术支持Web站点的管理、查询和表现
形成一整套彻底的解决方案。目前,很多数据库厂商和研究饥构都推出了具体摸型和系统。主要有两方
面的成果。一种以半结构化模型为基础,如OEM,ADM等,以.ore为代表,支持XMI查询,查询语言类似
OQL,支持长路径表达式。半结构化数据模型与Web页相似,利于转换,但不易利用成熟的查询优化技术。
一种以传统关系、对象模型为基础,抽取Web页结构,转换成数据模型,以数据库技术查询处理。
传统数据库有严格的结构 在描述Web页信息时建摸方法是非常关键的,要求做到以下三点
1数据模型能准确表达Web页间的锚接关系和Web页内的语义信息 ‘
2信息抽取规则具有普遍性。
3抽取信息既能充分用于查询,同时又能避免产生大量数据冗余
由于HTML本身缺乏语义及结构信息描述,数据库方对HTML的查询方法在一段时间内遇到很大的
难题,以标记为数据库结构的解决方法,可以实现信息的自动转换,但造成一倍的数据冗余。
我们开发的()RBASE原型系统是对象关系数据库系统,我们在数据模型、查询能力、查询优化等各方
面采取了支持Web查询的手段,用于基于内容的Web查询具有表达能力强,定位精确,效率高等特点
的网页建模方法
2.1基本方法描述
本文推出的基本方法是:从Wet,页中提出部分查询所需的信息存于数据库.并建立数据库中对象和
Web页地址之间的对应关系,在数据库中做基于内容的查询,找到相应对象,并根据对应网址找到相应的
1oo
第十七届全国数据库学术会议论文集(技术报告篇)
网页。
实现这种方法,基于①ORBASE支持Wet查询的一些新特征;②页及页间联系与ORBASE模型的对
应规则
2.2 ORRASF的数据模型ORM
1对象是数据模型的基本元家,有确定的类型或类约束。
2-类的属性分为零阶属性和高阶属性两种。零阶属性具有原子值,域是原子类型,包括多媒体类型
声〔音、图形、图象、超文本等);高阶属性的值为对象或对象集合。
3.支持类的继承和多重继承
3.对象间的嵌套关系采用双向约束。从正反两向描述各种关系,查询方便。Web页间的锚接关系是
单向的不能从底层网页查询高层网页.但数据库的双向约束可以克服这一点。
2.3 2网页信息的抽取规则
实际要解决对网页间锚接关系和页内信息结构的抽取,建立与ORRASE模型的对应关系。
规则1:结构相似的网页抽取相同的结构对应ORBASE中的类;对象与页为n:且关系。如上图,各系
的教师页中保存多个教师的信息。类的属性
您可能关注的文档
- A wave energy resource assessment in the China's seas based on multi-satellite merged radar altimeter data.pdf
- George Orwell's Non-linear Narrative in The Road To Wigan Pier.pdf
- 羊毛衫成衣后整理中的常见问题解析研究.pdf
- 羊毛无氯防缩、防起球工艺发展趋势研讨研究.pdf
- 羊毛稀土抗菌及其染色性能研讨.pdf
- 羊毛纤维集合体水份含量的测量方法研究.pdf
- 脱硫工艺用水和废水回用系统改造成果分析研究.pdf
- 脱硫工艺中的循环经济分析研究.pdf
- GERDAU公司ACOSFINOSPIRATINI厂进行低温精轧.pdf
- 羊毛用活性染料在真丝上的应用探讨研究.pdf
文档评论(0)