欧阳显斌毕业答辩演示.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识题纲 1.研究背景和意义 2.研究现状 3.问题描述 4.做的工作 5.实验与分析 6.总结 7.感谢 1.研究背景和意义 1.研究背景和意义 问题 用户查询时需熟悉数据库模式和sql语句 传统的文件(Document)的关键字检索技术根本无法适用于数据库的关键字检索。 1.研究背景和意义 意义: 使得用户能在不了解具体的数据库模型和结构(Schema)、不必掌握数据库查询语言(如SQL)的情况下,能够像Web搜索一样通过简单的输入关键字来得到与用户预期结果具有较高符合度的答案,而且通过这样的技术还可以挖掘出用户查询的关键字之间潜在的、用户并不知道的联系。 2.研究现状 当前方法: 模式图方法: 缺点:面对数据结构关系复杂,数据量很大的时候,执行的效率不是很理想,甚至非常慢。而且不适用于半结构化数据、非结构化数据,通用性差。 数据图方法 3.问题描述 给定一个数据图和一组查询关键词,基于数据图的关系数据库关键词查询问题就是找到图G中包含所有关键词的子图作为结果返回单元返回到客户端。 简单的说: 就是用户只需输入一组关键词,系统就返回top-k个结果树 简单例子 对于这个例子我们输入关键词组 yu,lin 就可以返回最优解(top-k = 1) 4.所做工作 1.基于Voronoi-path的图数据关键词查询算法 2.基于r-cliques的图数据关键词查询算法 5.实验分析 实验环境 Microsoft Windows 7操作系统;Intel(R)Core(TM)i3-330M processor CPU ; 2G内存;320G硬盘;开发环境为code::blocks 10.05,myeclipse 6.5; Mysql 5.实验分析 测试数据 实验选取其中198MB的原始数据的XML文件进行XML解析并转换为关系数据库,得到四个关系表Author、Paper、Writes和Cites,具体信息如下表所示: 5.实验分析 实验结果 见演示 6.总结 基于Voronoi-path充分的利用了预先处理的索引和关系数据库的查询能力,对于一次性搜索大量结果很有优势。但是缺点也不少,它可能存在错误解,其次是需要大量的时间来建索引,需要大量的空间来储存索引。 基于r-极大团的方法,它是预先建立了一部分索引,然后再用户查询时,读取这部分索引,再而进行实时操作从而获得最优解,不可否认,该方法得到的解质量非常好,而且没有错误解,但是它的缺点是,查询少量解时间可以接受,,但是一次性想获得大量解(如数百个),那么等待时间对于用户是不可以接受的,使用的内存也是巨大的。 7.感谢 坚持ACM近3年,写了近1000题,近10W行关于算法的 C++程序代码,得到的不仅仅是一个银奖两个铜奖, 更重要的是分析问题的能力和外文阅读能力,还有 那种感觉自己慢慢成长的快乐,那种在梦中想到优 化方法的兴奋。 7.感谢 感谢学院和老师们给我参加国际大学生程序设计比赛这个机会,所谓饮水思源,希望学院和老师们继续支持,这个真的好考验毅力,锻炼编程能力。 同时感谢各位教导过我的老师,最后感谢廖列法老师,杨书新老师、李淑芝老师以及和我一起战斗的ACM所有成员,感谢你们坚持了ACM。 谢谢! 软件091班 欧阳显斌 2013年6月14日 图数据关键词查询研究与实现 缩减后的示意图 问题的提出 思考: (1)索引数量过大,导致效率低下,错误解过多? (2)评价函数改进? (3)对结果进行统计,归纳? 原理 利用RDBMS提供的索引和查询能力,使用宽度优先搜索方法建立Voronoi-path索引,包含词语、节点、权重、Voronoi路径信息,其结果查找算法是运用SQL语句从索引表中获取包含K的Voronoi路径,构造结果树。 4.1基于Voronoi-path的图数据关键词查询算法 做的工作 1.限制宽度搜索的长度 2.间隔搜索 (极大减少索引数,对比data_inform) 3.判重优化(维护一个平衡二叉树类数据结构,把O(n)判重优化至O(lg(n)))(实现细节) 4.结果聚类 4.1基于Voronoi-path的图数据关键词查询算法 问题的提出 思考: (1)结果区分度不太好? (2)如何实现,可否做出部分优化? 原理 r-极大团顶点集合包含了所有的输入关键词,同时任意两个顶点间距离都不大于r。结果产生方法是改进Lawlers处理过程[12],将关键词ki对应的关键词节点集Ci组合形成求解空间并递归分解,和基于多中心导出子图模型的方法相似,在结果展示以一个斯坦纳树的形式表示。 4.2基于r-cliques的图数据关键词查询算法 做的工作 1. 利用稀疏图的特点来改变更新距离方法 可

文档评论(0)

186****6410 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档