sparkGraphX图计算教程入门手册调研资料.docx

 PAGE \* MERGEFORMAT 1  STYLEREF 标题 \* MERGEFORMAT Error! No text of specified style in document.  PAGE \* MERGEFORMAT 37  PAGE \* MERGEFORMAT 36 Graphx 参考: HYPERLINK /art/201408/450049.htm /art/201408/450049.htm Spark+GraphX大规模图计算和图挖掘(V3.0) 本章旨在介绍图计算、Spark GraphX和梳理GraphX学习时的关键知识结构。 分布式计算 分布式图计算框架的目的 将对于巨型图的各种操作包装为简单的接口,让分布式存储、并行计算等复杂问题对上层透明,从而使复杂网络和图算法的工程师,更加聚焦在图相关的模型设计和使用上,而不用关心底层的分布式细节。 需要解决两个通用问题:图存储模式和图计算模式。 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变??点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 边分割 每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被

文档评论(0)

1亿VIP精品文档

相关文档