关系数据库上基于索引的Top—N关键词查询-北京工业大学学报.PDFVIP

下载本文档

8
0
约1.39万字
约 7页
2018-01-19 发布于天津
举报
版权申诉

关系数据库上基于索引的Top—N关键词查询-北京工业大学学报.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关系数据库上基于索引的Top—N关键词查询-北京工业大学学报

第37卷第6期北京工业大学学报 V01．37No．6 OF 2011年6月 JOURNALBEIJINGUNIVERSITYOFTECHNOLOGY Jun．201l 关系数据库上基于索引的Top—N关键词查询朱亮1，姬慎达1，刘椿年2，杨文柱1 (1．河北大学数学与计算机学院河北省机器学习与计算智能重点实验室，河北保定071002； 2．北京工业大学计算机学院。北京 100124) 摘要：为了实现关系数据库上自由态的关键词查询，通过创建索引表并运用其存储的知识为每个属性赋予不同的权值来改进信息检索中传统的排序方法．对每个查询用索引表和改进的排序方法来获得Top-N答案．用实际数据集进行了实验，实验结果表明此方法在查询时间和准确性上是有效的．关键词：查询；索引；元组树；排序策略中图分类号：TP311．13 文献标志码：A 文章编号：0254—0037(2011)06—0940—07 传统关系数据库查询需要用户知道详细的数据库模式和SQL语言，这对于普通用户很困难．鉴于信息检索(IR)和文档数据库中关键词查询的研究和应用，近年来对关系数据库自由态的关键词奁询的研究成为热点之一．关键词查询能使用关键词从关系数据库中检索信息，而无需用户了解数据库模式和SQL 语言．文献[1]提出了实现关键词查询的一种框架，并提出了一种递增遍历查询结果的启发式算法．对于查询结果，用查询结点的邻近度和结点间关联的优先级2个因子计算适应度并排序；文献[2]用符号表 (symboltable)存储关键词和相应的出现位置，通过维持符号表把要查询的多个关键词所在的关系作为图结点连接起来，生成模式图的多个子图，每个子图转化为一个SQL语句进行查询；文献[3]考虑了用户对数据库中关系名、属性名等元数据的查询；文献[4]改进了文献[1]的算法，提出双向扩展查询算法；文献 [5]对返回的元组树进行聚类，把结构相似或同构的元组树分为一组；对于查询效率，文献[1．2]有了改进，但是计算查询结果的排序策略过于简单，都没有考虑借鉴信息检索中的排序方法．为了提高查询的准确性，本文鉴于Top．N查询处理的方法∞11，讨论了关系数据库中文本属性的Top—N关键词查询处理，通过建立索引表存储相应元组词所在元组的词频、元组中单词长度及元组词总的出现次数等，并且改进信息检索中的排序方法，进而获得查询结果并排序得到Top—N答案． 1概念和术语考虑1个数据库有n个关系Rl’．”，尺。，每个关系尺j有／it。个属性，分别为口：，…，口：：． 1)模式图¨。1训G是1个连接数据库模式中外键一主键关联的有向图．对于每个关系R。，G中存在1个结点与之对应，图中的每条边R，一R，表示数据库中的1个从R：的属性集(口：。，…，o：。)到R，的属性集 (以。，…，以。)的外键一主键关联，其中ok；吐。(I|}=1，…，t)．另外，定义图G。为图G的无向图．的个数．对其连接．其大小是包含结点(元组集)的个数．收稿日期：2009．03．28．基金项目t国家自然科学基金资助项目；河北大学博士基金资助项目(2009-260)．作者简介：朱亮(1964一)，男，河北滦县人，教授．第6期朱亮，等：关系数据库上基于索引的Top-N关键词查询 94l 4)设t是关系R的1个元组，规范化后包含n个不同的词，表示为t=(埘。，：，…，埘。)，每个埘。称为重复出现的词只记为1个元组词，因此，对于关系R或一个元组，其元组词的个数不超过其所含单词的个数．的单元格所包含的元组词word的个数． 2关键词查询索引表，用来确定查询关键词的位置，同时运用其中的相关信息计算查询和答案之间的相似度．因此，确定元组词的存储粒度是重要的．存储粒度通常有2种，即列级和单元格级一“．本文采用较细化的单元格级存储粒度，原因是较细化的知识可以更精确地计算查询及其多个结果之间的相似度．对于一个查询，返回的结果是一些元组树，每个元组树包含多个不同的文本属性值，而这些属性通常具有明显不同的特征，例如书名的属性值相对较短，而书的摘要则较长．如果对这些属性