图数据库-架构与算法.pdfVIP

  • 104
  • 0
  • 约6.25万字
  • 约 42页
  • 2019-06-03 发布于江苏
  • 举报
14 图数据库:架构与算法 董小姐 我也是个复杂的动物 嘴上一句带过 心里却一直重复 董小姐 鼓楼的夜晚时间匆匆 陌生的人 请给我一支兰州 ——宋冬野《董小姐》 图计算是一类在实际应用中非常常见的计算类别,当数据规模大到一定程度时,如何对其进行 高效计算即成为迫切需要解决的问题。最常见的大规模图数据的例子就是互联网网页数据,网页之 间通过链接指向形成规模超过 500 亿节点的巨型网页图。再如,Facebook 社交网络也是规模巨大的 图,仅好友关系已经形成超过 10 亿节点、千亿边的巨型图,考虑到 Facebook 正在将所有的实体数 据节点都构建成网状结构,其最终形成的巨型网络数据规模可以想见其规模。要处理如此规模的图 数据,传统的单机处理方式显然已经无能为力,必须采用由大规模机器集群构成的并行图数据库。 在处理图数据时,其内部存储结构往往采用邻接矩阵或邻接表的方式,图 14-1 是这两种存储方 式的简单例子示意图。在大规模并行图数据库场景下,邻接表的方式更加常用,大部分图数据库和 处理框架都采用了这一存储结构。 图数据与大数据处理中常见的 KV 数据相比,有自身独有的特点,这也决定了其处理机制与其 他类型的海量数据处理系统有很大的差异。具体而言,图数据的数据局部性很差,相互之间有很密 切的关联,具体体现就是图节点所展现出的边,其表征着数据之间的关联。很多自然图的结构遵循 Power Law 规则,满足 Power Law 规则的图数据分布极度不均匀,极少的节点通过大量的边和其他 众多的节点发生关联。这给分布式存储和计算带来很大的困难,因为数据局部性差意味着数据分布 大数据日知录:算法与架构 到集群中的机器时存在潜在的数据分布不均匀或者计算中需要极高的网络通信量等问题。 邻接矩阵 Adjacency matrix B C A B C D E 1 ∞ ∞ A 10 5 B 1 2 10 A C 4 D 3 9 2 0 2 3 9 4 6 E 7 6 5 7 邻接表 Adjacency List A: (B, 10), (D, 5) ∞ ∞ 2 B: (C, 1), (D, 2) D E C: (E, 4) D: (B, 3), (C, 9

文档评论(0)

1亿VIP精品文档

相关文档