- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关系数据库上基于索引的Top—N关键词查询-北京工业大学学报
第37卷第6期 北京工业大学学报 V01.37No.6
OF
2011年6月 JOURNALBEIJINGUNIVERSITYOFTECHNOLOGY Jun.201l
关系数据库上基于索引的Top—N关键词查询
朱 亮1,姬慎达1,刘椿年2,杨文柱1
(1.河北大学数学与计算机学院河北省机器学习与计算智能重点实验室,河北保定071002;
2.北京工业大学计算机学院。北京 100124)
摘要:为了实现关系数据库上自由态的关键词查询,通过创建索引表并运用其存储的知识为每个属性赋予不
同的权值来改进信息检索中传统的排序方法.对每个查询用索引表和改进的排序方法来获得Top-N答案.用实
际数据集进行了实验,实验结果表明此方法在查询时间和准确性上是有效的.
关键词:查询;索引;元组树;排序策略
中图分类号:TP311.13 文献标志码:A 文章编号:0254—0037(2011)06—0940—07
传统关系数据库查询需要用户知道详细的数据库模式和SQL语言,这对于普通用户很困难.鉴于信
息检索(IR)和文档数据库中关键词查询的研究和应用,近年来对关系数据库自由态的关键词奁询的研究
成为热点之一.关键词查询能使用关键词从关系数据库中检索信息,而无需用户了解数据库模式和SQL
语言.文献[1]提出了实现关键词查询的一种框架,并提出了一种递增遍历查询结果的启发式算法.对于
查询结果,用查询结点的邻近度和结点间关联的优先级2个因子计算适应度并排序;文献[2]用符号表
(symboltable)存储关键词和相应的出现位置,通过维持符号表把要查询的多个关键词所在的关系作为图
结点连接起来,生成模式图的多个子图,每个子图转化为一个SQL语句进行查询;文献[3]考虑了用户对
数据库中关系名、属性名等元数据的查询;文献[4]改进了文献[1]的算法,提出双向扩展查询算法;文献
[5]对返回的元组树进行聚类,把结构相似或同构的元组树分为一组;对于查询效率,文献[1.2]有了改
进,但是计算查询结果的排序策略过于简单,都没有考虑借鉴信息检索中的排序方法.为了提高查询的准
确性,本文鉴于Top.N查询处理的方法∞11,讨论了关系数据库中文本属性的Top—N关键词查询处理,通过
建立索引表存储相应元组词所在元组的词频、元组中单词长度及元组词总的出现次数等,并且改进信息检
索中的排序方法,进而获得查询结果并排序得到Top—N答案.
1概念和术语
考虑1个数据库有n个关系Rl’.”,尺。,每个关系尺j有/it。个属性,分别为口:,…,口::.
1)模式图¨。1训G是1个连接数据库模式中外键一主键关联的有向图.对于每个关系R。,G中存在1个
结点与之对应,图中的每条边R,一R,表示数据库中的1个从R:的属性集(口:。,…,o:。)到R,的属性集
(以。,…,以。)的外键一主键关联,其中ok;吐。(I|}=1,…,t).另外,定义图G。为图G的无向图.
的个数.
对其连接.其大小是包含结点(元组集)的个数.
收稿日期:2009.03.28.
基金项目t国家自然科学基金资助项目;河北大学博士基金资助项目(2009-260).
作者简介:朱亮(1964一),男,河北滦县人,教授.
第6期 朱亮,等:关系数据库上基于索引的Top-N关键词查询 94l
4)设t是关系R的1个元组,规范化后包含n个不同的词,表示为t=(埘。,:,…,埘。),每个埘。称为
重复出现的词只记为1个元组词,因此,对于关系R或一个元组,其元组词的个数不超过其所含单词的
个数.
的单元格所包含的元组词word的个数.
2关键词查询
索引表,用来确定查询关键词的位置,同时运用其中的相关信息计算查询和答案之间的相似度.因此,确
定元组词的存储粒度是重要的.存储粒度通常有2种,即列级和单元格级一“.本文采用较细化的单元格
级存储粒度,原因是较细化的知识可以更精确地计算查询及其多个结果之间的相似度.对于一个查询,返
回的结果是一些元组树,每个元组树包含多个不同的文本属性值,而这些属性通常具有明显不同的特征,
例如书名的属性值相对较短,而书的摘要则较长.如果对这些属性
您可能关注的文档
- 中文检索系统索引方法之研究-淡江大学.DOC
- 中港台电子期刊数据库-EdUHKLibrary.PPT
- 中考网微信使用教程-牡丹江教育云空间.PPT
- 中药材木香的粉末X射线衍射Fourier指纹图谱鉴定研究报告人龚宁波.PDF
- 中部大学校院图书馆联盟-台中教育大学图书馆.PPT
- 丰富的应用功能-检索-图书馆.PPT
- 为互动直播量身定做流媒体服务.PDF
- 为判定表每一列设计一个测试用例.PPT
- 为孩子营造良好的家庭成长环境.DOC
- 为该表中一些字段建立普通索引.PPT
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- 浙江农村信用社招聘-2025台州温岭农商银行寒假实习生招聘招聘笔试备考试题及答案解析.docx VIP
- 基于AT89C51的智能加湿器的设计与仿真.docx VIP
- 绿化养护项目方案投标文件(技术标).doc
- 简明国际神经精神障碍访谈检查(MINI)中文版.pdf VIP
- 英语不规则动词变化规律 .pdf VIP
- 浙江农村信用社招聘-2025台州温岭农商银行寒假实习生招聘招聘笔试备考题库及答案解析.docx VIP
- 苏霍姆林斯基《给教师的一百条建议》(98~100).pdf VIP
- 小沈阳宋晓峰杨树林小品《江北四大才子》招亲剧本台词完整版.doc
- 银行业务宣传品(玻璃杯、保温杯、茶水分离杯)采购项目投标方案.docx
- 四川省巴中市2024-2025学年九年级上学期期末化学试题(含答案).pdf VIP
原创力文档


文档评论(0)