- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
博士学位论文公示材料解析
博士学位论文公示材料
学生姓名 成雨蓉 学号 1210380 二级学科 计算机软件与理论 导师姓名 王国仁
论文题目 大规模图数据查询处理关键技术研究
论文关键词 大规模图数据,查询处理,最短路径查询,可达查询,关键字查询,事件参与
规划查询
论文摘要(中文)
随着互联网和数据库技术的不断发展,作为一种通用的数据结构,图数据已在越来越
多的应用中广泛存在,例如生物信息网络、社交网络、知识图谱等。图数据上的查询处理
(如最短路径查询、可达查询、关键字查询等)是数据库领域最基础的问题之一。尤其随
着现如今大数据时代的到来,如何在大规模图数据上进行高效的查询处理显得日益重要。
虽然研究者近年来在图数据的查询处理技术上已经取得了长足的进展,但随着数据发展日
趋多样性,在实际应用中,图数据混合了多种复杂的信息,如不确定信息、时空信息等。
因此,为迎合用户在实际生活中的需求,图数据上的查询处理需要针对特定环境下进行更
加合理高效建模,并设计相应的高效计算处理技巧。而另一方面,由于图数据本身所具有
的复杂拓扑结构的性质,图上的查询处理大多计算复杂度非常高,因而为大数据环境下的
高效计算带来了巨大的挑战。为此,本文从用户在不同实际应用场景下的需求入手进行分
析,进行合理的建模,并提出了有针对性的高效查询处理算法。
(1) 大规模关联不确定图上的最短路径查询。分析了实际应用中图数据上的不确定信
息彼此间存在的相关性,从而提出了一种基于马尔可夫网络的关联不确定图模型,以克服
现有独立不确定图模型中的不足。由于在关联不确定图模型上计算最短路径概率是一个
#P-难问题,本文提出了一种过滤-验证的方法来高效地求解该问题。在过滤步骤中,本文
计算出最短路径概率的一系列上界。同时,设计一种概率最短路径索引,来管理这些上界,
并辅助利用这些上界来过滤掉对查询结果无用的结点和边。由于构建最优索引依然是一个
NP-难问题,本文提供一种O(log n)-近似的多项式时间算法来构建索引。在过滤步骤之后,
仅剩余一小部分子图作为候选集。验证步骤在该候选集上进行高效的采样算法来计算出最
终结果。
(2) 分布式环境下不确定图上的可达查询。分析了在实际应用中,尤其是大数据环境
下,不确定图数据通常是分布式存储的。而现在有的不确定图上的可达查询均为集中式算
法,且由于该问题是#P-完全的,即使在集中式小图环境下计算,其代价也非常高。本文
发现,虽然在全图上计算可达概率是#P-完全的,但在一大部分子图上的可达概率却是多
—1—
项式时间可计算的。因此,本文提出一种分布式图简化和分布式确认的策略来高效地计算
结果。在分布式图简化的步骤中,将所有的可达概率在多项式时间内可计算的子图简化成
一条单边。在分布式确认步骤中,将该问题转化为高效的表连接问题,并利用近似算法来
计算最终结果。
(3) 大规模容错知识图谱上的关键字查询。分析了容错性是知识图谱在现实生活中的
主要特征之一。而现有的图数据上关键字查询定义如果直接应用到容错知识图谱中则会返
回给用户错误的结果。为此,本文针对容错知识图谱环境设计了一种称为置信 - 团的关键
字查询定义,使其可以返回给用户更合理的关键字查询结果。另一方面,由于计算置信 -
团中的 - 团置信度是#P-难的,因此提出了一种过滤-验证算法框架来高效地解决该问题。
在过滤步骤中,计算出置信 - 团的候选结构和置信度上界,并设计出一种适应于大数据环
境的索引,将没有机会出现在结果集中的结点和边进行剪枝。大量的基于真实数据集的实
验证明,本文所提出的置信 - 团定义所返回的结果比直接将传统关键字查询定义应用到容
错知识图谱中所返回的结果更能令用户满意,且所提出的算法具有高效性。
(4) 基于事件的社交网络上事件参与规划查询。考虑在实际应用中二分图匹配结合了
时空信息的情况,提出一种为基于事件的社交网络平台上的用户制定个性化参与其感兴趣
的事件的规划查询问题。然而现有的技术要么忽略了参加每个事件的最少人数需求条件,
要么假设所有的事件一旦发布,任何信息都不能被改变。这些假设在现实生活中均难以实
现。为此,文本提出了一个复杂事件规划(GEPC )问题及其动态变种(IEP )问题,并证
明这两个问题都是NP-难
您可能关注的文档
最近下载
- 广西南宁市第四十七中学2023-2024学年九年级上学期物理学科开学质量调研题【含答案】.docx VIP
- 2025年高考数学全国新课标Ⅱ卷试卷评析及备考策略(课件).pptx VIP
- 义务教育版(2024)五年级信息科技 第14课 算法效率比一比 教案.docx VIP
- 义务教育版(2024)五年级信息科技 第17课 选择排序轻松做 教案.docx VIP
- 《电机调速技术》课程标准.pdf VIP
- 股票期权基础知识题库100道及答案(完整版).docx VIP
- 2025年内蒙古呼和浩特市中考英语试卷真题 (含答案).docx
- 东芝 东芝 RC-10ZWMC电饭煲(锅) 说明书.pdf
- DB37∕T 4516-2022 高速公路边坡光伏发电工程技术规范.pdf VIP
- 2025年高速公路收费员招聘考试试题及答案 .pdf VIP
文档评论(0)