面向大规模图遍历的数据存储布局优化研究-计算机系统结构专业毕业论文.docxVIP

  • 1
  • 0
  • 约5.18万字
  • 约 57页
  • 2019-05-08 发布于上海
  • 举报

面向大规模图遍历的数据存储布局优化研究-计算机系统结构专业毕业论文.docx

独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本论文属于 保密□,在 年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华 华 中 科 技 大 学 硕 士 学 位 论 文 I I 摘 要 在外存模式图处理系统处理大规模图数据时,由于图应用访问的随机性和图数据 的低局部性,导致此类图处理系统在访问图数据时产生大量的外存储器随机 I/O 请 求,从而严重影响文件缓存命中率,削弱 I/O 性能。因此,如何优化此类外存模式型 图处理系统的 I/O 性能是提高图处理效率的关键。 通过对外存模式图处理系统 X-Stream、GraphChi 和 PrefEdge 的 I/O 处理原理进 行分析和对比,探讨了各方案的优势与局限性。在不改变图处理模型和用户操作复 杂度的前提下,提出了基于图结构逻辑关联性进行图数据布局的 I/O 优化方案,设计 以广度优先搜索访问序列作为图节点偏序关系进行图节点号映射布局,提高图遍历 访问顺序性与局部性的方法 BOGL。建立 BOGL 的 BFS 访问多叉树,给出图邻接矩 阵,并统计分析布局前后的顺序 I/O 请求平均次数和图邻接矩阵非零元素的分布,论 证了 BOGL 数据布局算法提高了图遍历的顺序性和局部性,从而可提高图处理的性 能。开发了支持 BOGL 算法的图处理引擎原型系统 BOGLE,主要包括预处理模块、 加载模块、计算模块和预取模块,相比 X-Stream 和 GraphChi 图系统,使用 BOGLE 可以不改变其原有图编程模型,不增加用户操作复杂性,并且 BOGLE 可以和现有图 处理系统结合使用;相比 PrefEdge 系统,尽管其已经专门面向图处理过程优化缓存, 增加 BOGLE 数据布局优化后进一步提高了 I/O 效率。 通过对不同来源、类型、尺寸的图数据集重新进行数据布局,对比测试布局前后 的图处理应用性能,验证了 BOGL 数据布局策略 I/O 优化的有效性。将 BOGLE 用 于 SimPrefEdge 和 GraphChi 图处理系统中,相比于原系统,对于高密率、平均度较 高的“肥胖型”图数据集,采用 BOGLE 进行数据布局之后,其图遍历过程中 I/O 性 能都有一定的提升,从而改善图处理效率。 关键词:外存模式图处理系统;大规模图遍历;数据布局;I/O 优化 II II Abstract When processing large-scale graph data in external storage mode in graph process systems, due to the randomness of application access and the low locality of graph data, it causes a large number of random I/O requests ,which affects the cache hit rate and weakens the performance of I/O. Therefore, how to optimize the I/O performance of the graph processing systems in external storage mode is the key to improve the efficiency of graph processing. By analyzing and comparing in I/O patterns of graph process systems,including X-Stream, GraphChi and PrefEdge, we discuss the advantages and limitations of each scheme. Without changing the graph processing model or

文档评论(0)

1亿VIP精品文档

相关文档