- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向Top-k分级的数据库关键词查询系统体系结构
摘 要:关系数据库关键词查询系统目前存在的主要问题是查询效率不高、查询效果不令人满意,其根源在于 查询系统的体系结构不合理。捉出了一种新型的面向top-k分级的数据库关键词查询系统体系结构,并用提出 的新的评分函数公式、基于索引的候选网络预处理方法、绑定实时过滤阈值的top-k搜索算法对该体系结构进 行实例化。结果显示该系统结构具冇很好的可行性,并R由实例化后的体系结构实现的系统具冇很好的查询性 能。
关键词:关系数据库;关键词;索引;top-k
中图分类号:
*
*国家自然科学基金,国家“-一五科技支撐计划(2006BAK05B02),河北省自然科学基金 (F2009000475)。
0引言
关系数据库是一种主要的信息存储机制,
SQL语言是关系数据库的标准查询语言,而对普 通用户来说,SQL语言既难学习,又难使用,并 且用户在查询关系数据库中的数据时,必须知道 这个数据库的数据模式。如图1所示的DBLP数 据库,当用户查询MVangelis发表的关于keyword 方面的论文”,用SQL语言表示这个查询
SELCET p.title
FROM Author a. Writes Papers p
WHER a. ant ho rid = w. ant ho rid AND w.paperid ^p.paperid
AND contains(a.nante9 VagelisJ )0
ORDER BYScore(l) DESC;
显然对于普通用户而言,书写这些复杂的 SQL查询语句是困难的。采用基于关键词的关系 数据库查询技术后,使得普通用户不需要任何 SQL语言和数据库模式的知识,也不需要学习和 使用关系数据库的定制的查询界面,通过关键词 查询方式来访问关系数据库,就像使用WEB搜 索引擎来检索Web信息一样,使得普通用户或者 Web用户访问关系数据库变得直观、易用。近年
来,基于关键词的关系数据库查询技术正是在这 样的背景下成为了数据库、信息检索领域学者共 同关注的研究热点之一。
关系数据库上的关键词查询的相关研究按照 其查询处理机制的不同可分为三类:离线系统、 在线系统和混合型系统。离线系统通过预先计算 生成中间结果,当用户提交关键词吋,根据中I可 结果牛成查询结果。在线系统将关键词查询转换 为SQL查询,通过实时查询数据库来生成查询结 果⑴。按照在线系统模型的搜索算法,又可分为两 种:搜索数据库数据图的系统(SDDS)和搜索数据 库模式图的系统(SDSS)o SDDS直接搜索最终结 果,BANKS?『,BANKS?II⑶,QCRD⑷是典型的搜 索数据库数据图的系统;SDSS搜索结果是连接 表达式,Z后需要将其转化为相对应的SQL语 句,IR-STYLE闻,SEEKER1 , SPARK-I⑹, SPARK-0堤典型的搜索数据库模式图的系统。 混合型系统是基于搜索数据库模式图的系统和搜 索数据库数据图的系统查询处理机制混合而成的 系统,QuickCN⑻是典型的混合型系统。
现在大多数研究工作都是基于搜索数据库模 式图的系统。SDSS主要有三部分组成:元组集 生成器、候选网络产生器、候选网络执行器,用 户响应时间Tqrl =TLs+Tcn+TsqI,其中Rs为元组集 生成器消耗的时间,%是候选网络产生器消耗的 时间,Tsql是候选网络执行器消耗的时间。Ten是 影响基丁 ?搜索数据库模式图的系统查询效率重耍 因素。IR-STYLE、SPARK-I、SPARK-II 原型系统 中的候选网络执行器采用执行CN的算法,是通 过绑定的阈值,來选择那些潜在的CN需要被执 行。rti于阈值是估计值,致使基于搜索数据库模 式图的系统的查询效果往往不太令人满意。
本文针对目前SDSS存在的关键的性能(查询 效率和查询效果)问题,提出了一个新型的关系数 据库Top-k关键词查询原型系统体系结构,并用 给出的新的评分函数公式,提出的基于索引的候 选网络的预处理方法、绑定实时过滤阈值的top-k 搜索算法对该系统体系结构进行实例化,结果显示该系统结构具有很好的可行性,并且由实例化 后的体系结构实现的系统具有很好的查询性能。
1基本定义
定义1:关系数据库模式?假设关系数据库的模 式,SdZFK), R={RhR2t...Rk}是一组关系模式, FK是中关系模式间引用关系的映射, 如果FK(R戶%,记为RiTRj(lM , //?),它表示 ①?一个外键引用了尺主键。
定义2:数据库模式图.假设Gs=(VfE)表示模式 Sdb=(R,FK)的关系数据库DB对应的模式图。Gs 是一个有向图,将DB中的每一个关系模式 心仃9)看作是G?的一个顶点,当且仅当关系模 式 RfG$,关系
文档评论(0)