图数据库-架构与算法.pdfVIP

下载本文档

104
0
约6.25万字
约 42页
2019-06-03 发布于江苏
举报

图数据库-架构与算法.pdf

14 图数据库：架构与算法董小姐我也是个复杂的动物嘴上一句带过心里却一直重复董小姐鼓楼的夜晚时间匆匆陌生的人请给我一支兰州 ——宋冬野《董小姐》图计算是一类在实际应用中非常常见的计算类别，当数据规模大到一定程度时，如何对其进行高效计算即成为迫切需要解决的问题。最常见的大规模图数据的例子就是互联网网页数据，网页之间通过链接指向形成规模超过 500 亿节点的巨型网页图。再如，Facebook 社交网络也是规模巨大的图，仅好友关系已经形成超过 10 亿节点、千亿边的巨型图，考虑到 Facebook 正在将所有的实体数据节点都构建成网状结构，其最终形成的巨型网络数据规模可以想见其规模。要处理如此规模的图数据，传统的单机处理方式显然已经无能为力，必须采用由大规模机器集群构成的并行图数据库。在处理图数据时，其内部存储结构往往采用邻接矩阵或邻接表的方式，图 14-1 是这两种存储方式的简单例子示意图。在大规模并行图数据库场景下，邻接表的方式更加常用，大部分图数据库和处理框架都采用了这一存储结构。图数据与大数据处理中常见的 KV 数据相比，有自身独有的特点，这也决定了其处理机制与其他类型的海量数据处理系统有很大的差异。具体而言，图数据的数据局部性很差，相互之间有很密切的关联，具体体现就是图节点所展现出的边，其表征着数据之间的关联。很多自然图的结构遵循 Power Law 规则，满足 Power Law 规则的图数据分布极度不均匀，极少的节点通过大量的边和其他众多的节点发生关联。这给分布式存储和计算带来很大的困难，因为数据局部性差意味着数据分布大数据日知录：算法与架构到集群中的机器时存在潜在的数据分布不均匀或者计算中需要极高的网络通信量等问题。邻接矩阵 Adjacency matrix B C A B C D E 1 ∞ ∞ A 10 5 B 1 2 10 A C 4 D 3 9 2 0 2 3 9 4 6 E 7 6 5 7 邻接表 Adjacency List A: (B, 10), (D, 5) ∞ ∞ 2 B: (C, 1), (D, 2) D E C: (E, 4) D: (B, 3), (C, 9

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

图数据库-架构与算法.pdfVIP