- 23
- 0
- 约2.46千字
- 约 21页
- 2018-05-02 发布于湖北
- 举报
欧阳显斌毕业答辩演示
知识题纲 1.研究背景和意义 2.研究现状 3.问题描述 4.做的工作 5.实验与分析 6.总结 7.感谢 1.研究背景和意义 1.研究背景和意义 问题 用户查询时需熟悉数据库模式和sql语句 传统的文件(Document)的关键字检索技术根本无法适用于数据库的关键字检索。 1.研究背景和意义 意义: 使得用户能在不了解具体的数据库模型和结构(Schema)、不必掌握数据库查询语言(如SQL)的情况下,能够像Web搜索一样通过简单的输入关键字来得到与用户预期结果具有较高符合度的答案,而且通过这样的技术还可以挖掘出用户查询的关键字之间潜在的、用户并不知道的联系。 2.研究现状 当前方法: 模式图方法: 缺点:面对数据结构关系复杂,数据量很大的时候,执行的效率不是很理想,甚至非常慢。而且不适用于半结构化数据、非结构化数据,通用性差。 数据图方法 3.问题描述 给定一个数据图和一组查询关键词,基于数据图的关系数据库关键词查询问题就是找到图G中包含所有关键词的子图作为结果返回单元返回到客户端。 简单的说: 就是用户只需输入一组关键词,系统就返回top-k个结果树 简单例子 对于这个例子我们输入关键词组 yu,lin 就可以返回最优解(top-k = 1) 4.所做工作 1.基于Voronoi-path的图数据关键词查询算法 2.基于r-cliques的图数据关键词查询算法 5.实验分析 实验环境 Microsoft Windows 7操作系统;Intel(R)Core(TM)i3-330M processor CPU ; 2G内存;320G硬盘;开发环境为code::blocks 10.05,myeclipse 6.5; Mysql 5.实验分析 测试数据 实验选取其中198MB的原始数据的XML文件进行XML解析并转换为关系数据库,得到四个关系表Author、Paper、Writes和Cites,具体信息如下表所示: 5.实验分析 实验结果 见演示 6.总结 基于Voronoi-path充分的利用了预先处理的索引和关系数据库的查询能力,对于一次性搜索大量结果很有优势。但是缺点也不少,它可能存在错误解,其次是需要大量的时间来建索引,需要大量的空间来储存索引。 基于r-极大团的方法,它是预先建立了一部分索引,然后再用户查询时,读取这部分索引,再而进行实时操作从而获得最优解,不可否认,该方法得到的解质量非常好,而且没有错误解,但是它的缺点是,查询少量解时间可以接受,,但是一次性想获得大量解(如数百个),那么等待时间对于用户是不可以接受的,使用的内存也是巨大的。 7.感谢 坚持ACM近3年,写了近1000题,近10W行关于算法的 C++程序代码,得到的不仅仅是一个银奖两个铜奖, 更重要的是分析问题的能力和外文阅读能力,还有 那种感觉自己慢慢成长的快乐,那种在梦中想到优 化方法的兴奋。 7.感谢 感谢学院和老师们给我参加国际大学生程序设计比赛这个机会,所谓饮水思源,希望学院和老师们继续支持,这个真的好考验毅力,锻炼编程能力。 同时感谢各位教导过我的老师,最后感谢廖列法老师,杨书新老师、李淑芝老师以及和我一起战斗的ACM所有成员,感谢你们坚持了ACM。 谢谢! 软件091班 欧阳显斌 2013年6月14日 图数据关键词查询研究与实现 缩减后的示意图 问题的提出 思考: (1)索引数量过大,导致效率低下,错误解过多? (2)评价函数改进? (3)对结果进行统计,归纳? 原理 利用RDBMS提供的索引和查询能力,使用宽度优先搜索方法建立Voronoi-path索引,包含词语、节点、权重、Voronoi路径信息,其结果查找算法是运用SQL语句从索引表中获取包含K的Voronoi路径,构造结果树。 4.1基于Voronoi-path的图数据关键词查询算法 做的工作 1.限制宽度搜索的长度 2.间隔搜索 (极大减少索引数,对比data_inform) 3.判重优化(维护一个平衡二叉树类数据结构,把O(n)判重优化至O(lg(n)))(实现细节) 4.结果聚类 4.1基于Voronoi-path的图数据关键词查询算法 问题的提出 思考: (1)结果区分度不太好? (2)如何实现,可否做出部分优化? 原理 r-极大团顶点集合包含了所有的输入关键词,同时任意两个顶点间距离都不大于r。结果产生方法是改进Lawlers处理过程[12],将关键词ki对应的关键词节点集Ci组合形成求解空间并递归分解,和基于多中心导出子图模型的方法相似,在结果展示以一个斯坦纳树的形式表示。 4.2基于r-cliques的图数据关键词查询算法 做的工作 1. 利用稀疏图的特点来改变更新距离方法 可
您可能关注的文档
- 模块一 劳动法的基本理论.ppt
- 案例10 人力公司风采展示.pptx
- 模块2 第4讲 工业文明冲击下中国的变革与转型.ppt
- 模拟电子技术lecture05.ppt
- 概况第5讲:工艺概述.ppt
- 模拟电路的调测方法.ppt
- 模板(幻灯片).ppt
- 模拟电风扇控制设计.doc
- 概论2015版 第二章 新民主主义革命理论.ppt
- 模考大赛行测试卷.doc
- 人教版九年级英语Unit 4曾害怕课件3a-4c.pdf
- 雅思口语考题回顾:朗阁海外考试研究中心2019年10月10日Part 1考题总结.pdf
- 2026届高三地理一轮复习课件小专题河流袭夺.pptx
- 【名师原创】复习专题5 三角函数 作者:合肥市第八中学 蒲荣飞名师工作室.docx
- 高中数学一轮复习 微专题2 抽象函数.docx
- 高中数学——复习专题4 空间向量与立体几何.docx
- 高中数学一轮复习 微专题3 空间几何体中的截面、轨迹问题.docx
- 高中数学一轮复习 微专题4 空间几何体的最值、范围问题.docx
- 导流洞施工质量通病防治手册.docx
- 江苏省徐州市第一中学、徐市第三中学等五校2026届高三上学期12月月考历史试题含答案.docx
原创力文档

文档评论(0)