I图计算.docxVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I图计算

图计算生活中图是如何产生的?计算机网络,就是由许多节点(计算机或者路由器)以及节点之间的边(网线)构成的;城市的道路系统,也是由节点(路口)和边(道路)构成的图。微信的社交网络,也是由节点(个人,公众号)和边(关注,点赞)构成的图。淘宝的交易网络,也是由节点(个人,商品)和边(购买,收藏)构成的图。网页的链接网络,也是由节点(网页)和边(链接)构成的图。图的定义:图G=(V,E)是由节点的集合V和边的集合E构成的。图在网络科学中被称为网络。图的类型我们以身高为横坐标,以取得此身高的人数为纵坐标,可画出一条钟形分布曲线,这种曲线两边衰减地极快,特别高的人和特别矮的人都是比较少见的;这种分布可以用正态分布或泊松分布来描述它。如左上图的泊松分布,符合这种分布的网络称之为随机网络,随机网络是个理论上的网络。实际生活中的网络是出于种种现实的目的建立的。比如微博,姚晨能成为大V,背后有一个分工严谨的团队在进行运作。对于一个现实中的网络而言,当新的节点加 入的时候,总是会优先连接那些在网络中最耀眼的节点。比如新用户加入微博,总是先关注那些知名大v。网络中的节点和新节点建立连接的概率与这个节点已有的 连接数正相关,网络的度分布则是幂律分布,符合这种特点的网络叫无尺度网络。又叫自然图。像Internet、电子邮件网络、电影演员合作网络、引文关系网络的节点的度都符合幂律分布,数据倾斜是很严重的现象。图计算图计算概述图由很多个节点(vertex)构成,节点之间通过边(edge)连接,节点和边中都包含了计算状态数据。状态的更新是通过在每个节点上运行一系列的迭代计算来完成,计算结果是图中所有节点和边的最终状态的聚合。节点计算依赖与自身节点、邻居节点以及边的状态,并可以更新这些状态。分布式图计算为了解决巨型图的存储和计算,提出了分布式图计算框架,其目的是将对于巨型图的各种操作包装为简单的接口,让分布式存储、并行计算等复杂问题对上层透明,从而使复杂网络和图算法的工程师,更加聚焦在图相关的模型设计和使用上,而不用关心底层的分布式细节。为了实现该目的,需要解决两个通用问题:图存储模式和图计算模式。图存储模式:边分割:每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被分到不同机器上的边来说,要跨机器通信传输数据,内网通信流量大。点分割:每条边只存储一次,都只会出现在一台机器上。邻居多的点会被复制到多台机器上,增加了存储开销,同时会引发数据同步问题。好处是可以大幅减少内网通信量。图计算模式目前的图计算框架基本上都遵循BSP(Bulk Synchronous Parallell)计算模式。在BSP中,一次计算过程由一系列全局超步组成,每一个超步由并发计算、通信和栅栏同步三个步骤组成。同步完成,标志着这个超步的完成及下一个超步的开始。BSP模式很简洁。基于BSP模式,目前有两种比较成熟的图计算模型。Pregel模型——“像顶点一样思考”(Think Like A Vertex)的图计算模式,让用户无需考虑并行分布式计算的细节,只需要实现一个顶点更新函数,让框架在遍历顶点时进行调用即可。GAS模型——相比Pregel模型的消息通信范式,GraphLab的GAS模型更偏向共享内存风格。它允许用户的自定义函数访问当前顶点的整个邻域,可抽象成Gather、Apply和Scatter三个阶段,简称为GAS。图的计算点的度数(average degree ):对于无向网络而言,就是每个边的平均节点数,有向网络又分为出度和入度。点的度数分布和消息的传播概率P直接决定了一个消息是否可以传遍全网络,还是在传播过程中湮灭了。平均路径(average path):对于某个点而言,计算它到网络中的所有其他点的最短路径,求和,然后除以网络中点的个数。这个值直接说明了这个点到网络中的其他节点要多少步。而对于网络的所有点的平均路径分布可以判断这个网络是均匀的(各点的平均路径大致相同), 带中心区域的(有的点平均路径大,属于边缘区,反之则为中心区)。网络半径:所有点的计算到其他点的距离,其中的最大距离就是网络半径。MAX(shortest path)对于点i的聚合系数(clustering cofficient)=点i的邻居间的边数/点i的邻居数。这个系数说明了i所在的社群是否是活跃的,有凝聚力的。这个特性在聚划算的效果预估,营销策略策划上有很大的应用前景。最大联通分量:是一个完全子图(sub complete graph),在这个子图中,所有点都相互连接,一些在全网络中不能大范围传播的信息会在这个小集团中反复传播,沉淀下来,称为一种类似方言,行话之类的东西。可用于社区发现。三角计数:当顶点周围与有一个其他两个顶点有连线时

文档评论(0)

yingxiaorong28 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档