大图分布式存储.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专题 第 8 卷  第 11 期  2012 年 11 月 大图的分布式存储 冯国栋  肖仰华 关键词 :大图 分布式存储 图划分 复旦大学 引言 何种方式进行存储,对整个图进行访问都需要随机 近年来,大图数据特别是数十亿顶点规模的图 访问而不是有序访问。图数据访问的这一特性决定 数据大量涌现。这一趋势对数据管理领域提出了全 了有效的图计算必须基于内存开展。由于当前内存 新挑战。万维网(world wide web ,WWW )目前已 规模仍在GB (109字节)级别,通过分布式存储可 经包含了超过500亿个网页以及数量达万亿级别的统 以直接载入内存,从而降低每台机器上图的规模, [1] 一资源定位符 (uniform resource locator ,URL ) 。 避免频繁进行磁盘交互。 统计结果表明,社交网络F aceb ook存储的好友网络 大图的分布式存储的核心技术是图划分。为 [2] 包含了超过8亿个节点和1000亿条边 。语义网领域 了将图部署到分布式系统中,需要将图分为若干部 的Linked Data规模正呈指数趋势上升,目前已包含 分,而后将每一部分分别存入某一机器。具体而 310亿个资源描述框架 (resource description frame- 言,图划分是一类问题的集合,这类问题需要将顶 [3] work ,RDF )三元组以及超过5亿个RDF链接 。在 点集合划分为若干单元,这些单元的并集构成总体 生物信息学领域,全基因组序列数据分析的关键环 的顶点集,任意两个单元相交为空。在考虑通过顶 节之一是序列拼接。当前面向短序列拼接的主流方 点复制减少通信的策略中,需要放松单元不相交的 法是基于de Brujin图的拼接方法。而人类基因组上的 约束。 20 [4] de Brujin图在最坏情况下具有4 个节点 。 接下来将系统介绍图划分这一分布式图存储中 在大图的各项研究挑战中,存储技术是亟待突 的关键技术。 破的关键技术。图存储技术研究图数据在磁盘上以 及分布式环境下的布局形式、划分方法、复制方法 图划分的关键因素 等一系列问题,它是图数据管理的前提与基石。图 的存储方式直接决定了图数据的访问效率、图查询 与挖掘的效率。 关键因素 目前来看,大图存储的基本框架是分布式存 图的划分方式直接决定了运行于其上的图系统 储。原因有两点:(1 )大图数据规模较大。10亿 的性能。 顶点规模的大图连同每个顶点或者边上存储的附加 通信代价 图计算的基础是图遍历。图遍历的 信息,其规模在TB (10 12字节)级别,甚至达到PB 基本特征是通过边对顶点进行访问与遍历。因此, (10 15字节)级。因此需要分布式存储。 (2 )分 跨越机器的边数决定图系统的网络通信开销。通常 布式存储有利于充分利用基于分布式内存的计算框 将两个端点存储在不同机器上的边称作交叉边。对 架。图数据的访问模式一般没有局部性。无论图以 于非本地数据的访问而导致的网络通信代价非常 12 第 8 卷  第11 期  2012 年 11 月 高:访问本地内存数据的时间通常以纳秒 (n s )计 机器数量,那么某个划分的容量 (volume )则定义 算,而网络通信时间则通常以毫秒 (m s )计算,两 为∑e (v

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档