关系数据库上基于索引的Top—N关键词查询-北京工业大学学报.PDFVIP

关系数据库上基于索引的Top—N关键词查询-北京工业大学学报.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关系数据库上基于索引的Top—N关键词查询-北京工业大学学报

第37卷第6期 北京工业大学学报 V01.37No.6 OF 2011年6月 JOURNALBEIJINGUNIVERSITYOFTECHNOLOGY Jun.201l 关系数据库上基于索引的Top—N关键词查询 朱 亮1,姬慎达1,刘椿年2,杨文柱1 (1.河北大学数学与计算机学院河北省机器学习与计算智能重点实验室,河北保定071002; 2.北京工业大学计算机学院。北京 100124) 摘要:为了实现关系数据库上自由态的关键词查询,通过创建索引表并运用其存储的知识为每个属性赋予不 同的权值来改进信息检索中传统的排序方法.对每个查询用索引表和改进的排序方法来获得Top-N答案.用实 际数据集进行了实验,实验结果表明此方法在查询时间和准确性上是有效的. 关键词:查询;索引;元组树;排序策略 中图分类号:TP311.13 文献标志码:A 文章编号:0254—0037(2011)06—0940—07 传统关系数据库查询需要用户知道详细的数据库模式和SQL语言,这对于普通用户很困难.鉴于信 息检索(IR)和文档数据库中关键词查询的研究和应用,近年来对关系数据库自由态的关键词奁询的研究 成为热点之一.关键词查询能使用关键词从关系数据库中检索信息,而无需用户了解数据库模式和SQL 语言.文献[1]提出了实现关键词查询的一种框架,并提出了一种递增遍历查询结果的启发式算法.对于 查询结果,用查询结点的邻近度和结点间关联的优先级2个因子计算适应度并排序;文献[2]用符号表 (symboltable)存储关键词和相应的出现位置,通过维持符号表把要查询的多个关键词所在的关系作为图 结点连接起来,生成模式图的多个子图,每个子图转化为一个SQL语句进行查询;文献[3]考虑了用户对 数据库中关系名、属性名等元数据的查询;文献[4]改进了文献[1]的算法,提出双向扩展查询算法;文献 [5]对返回的元组树进行聚类,把结构相似或同构的元组树分为一组;对于查询效率,文献[1.2]有了改 进,但是计算查询结果的排序策略过于简单,都没有考虑借鉴信息检索中的排序方法.为了提高查询的准 确性,本文鉴于Top.N查询处理的方法∞11,讨论了关系数据库中文本属性的Top—N关键词查询处理,通过 建立索引表存储相应元组词所在元组的词频、元组中单词长度及元组词总的出现次数等,并且改进信息检 索中的排序方法,进而获得查询结果并排序得到Top—N答案. 1概念和术语 考虑1个数据库有n个关系Rl’.”,尺。,每个关系尺j有/it。个属性,分别为口:,…,口::. 1)模式图¨。1训G是1个连接数据库模式中外键一主键关联的有向图.对于每个关系R。,G中存在1个 结点与之对应,图中的每条边R,一R,表示数据库中的1个从R:的属性集(口:。,…,o:。)到R,的属性集 (以。,…,以。)的外键一主键关联,其中ok;吐。(I|}=1,…,t).另外,定义图G。为图G的无向图. 的个数. 对其连接.其大小是包含结点(元组集)的个数. 收稿日期:2009.03.28. 基金项目t国家自然科学基金资助项目;河北大学博士基金资助项目(2009-260). 作者简介:朱亮(1964一),男,河北滦县人,教授. 第6期 朱亮,等:关系数据库上基于索引的Top-N关键词查询 94l 4)设t是关系R的1个元组,规范化后包含n个不同的词,表示为t=(埘。,:,…,埘。),每个埘。称为 重复出现的词只记为1个元组词,因此,对于关系R或一个元组,其元组词的个数不超过其所含单词的 个数. 的单元格所包含的元组词word的个数. 2关键词查询 索引表,用来确定查询关键词的位置,同时运用其中的相关信息计算查询和答案之间的相似度.因此,确 定元组词的存储粒度是重要的.存储粒度通常有2种,即列级和单元格级一“.本文采用较细化的单元格 级存储粒度,原因是较细化的知识可以更精确地计算查询及其多个结果之间的相似度.对于一个查询,返 回的结果是一些元组树,每个元组树包含多个不同的文本属性值,而这些属性通常具有明显不同的特征, 例如书名的属性值相对较短,而书的摘要则较长.如果对这些属性

您可能关注的文档

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档