万亿级节点的pagerank系统实现.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
万亿级节点的pagerank系统实现

万亿级节点的PageRank 系统实现 费马科技 李恺威 万亿级节点的PageRank系统实现 背景 • 网页数目 • 中国:2600亿 • 世界:数万亿 • 搜索引擎 • 归档管理网页数据 • 提供检索功能 • PageRank • 经典网页排名算法 • 重要性排序 • 指导网页抓取 万亿级节点的PageRank系统实现 PageRank算法 • 数据构成 • 网页:url地址 • 链接:通过网页中的 超链接指向其他网页 • 评分 • 被指向的次数越多 • 被评分高的网页指向 • 计算 • 多轮迭代 • 稀疏矩阵向量乘 (SPMV) 万亿级节点的PageRank系统实现 生产环境 • 文件系统:HDFS • 资源调度系统:YARN • 内存计算框架:Spark • 外存计算框架:MapReduce 万亿级节点的PageRank系统实现 HDFS • 高容错文件系统 • NameNode • 元数据管理 • 一致性维护 • DataNode • 存储文件块 • 多备份容错 • 负责内容传输 • Client • 向NameNode索取管理 对应文件的DataNode • 与DataNode传输,读写 数据 万亿级节点的PageRank系统实现 YARN • 资源调度系统 • ResourceMagager • 管理计算资源 • 接受资源请求/回收 • NodeManager • 汇报CPU和内存的分 配情况 • 定时发送心跳包 万亿级节点的PageRank系统实现 更好的方案:图计算框架 • Google Pregel ’2009 • 将网页抽象为图节点 • 将链接抽象为连接两个节点的边 • Pagerank值在节点上的迭代计算 • 沿着边传播pagerank • 其他相关工作 • C++/MPI: Gemini, PowerGraph, … • Spark: GraphX • 优化方向 • 多线程、多机 • 多级存储(缓存、内存、外存) • 放存局部性 • 负载平衡、减少通信 万亿级节点的PageRank系统实现 挑战:全网PageRank • 网页 • 用Spark • 万亿级(10^12) • 浪费数倍内存空间 • 浮点数存储pagerank值 • 近千台机器 • 空间10TB级 • 用MapReduce • 100+台128GB机器 • 纯磁盘IO,耗时长 • 链接关系 • 反复shuffle ,重复计算 • 十万亿级(10^13) • 用图计算框架 • 2个ur

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档