百度内网用于数据分发的P2P传输工具.pdf

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Gingko ——百度内网P2P传输工具 刘明 • 百度,研发工程师 – 参与内网p2p传输工具gingko 的完整设计与研发 目录 背景 Gingko简介 Gingko的主体框架 Tracker 客户端 Gingko应用场景——全网分发 背景 • 在1000台机器上部署一个程序包 • 在全公司数十万机器上部署一份java包 • 将数据周期性的分发到一批机器上 使用单机下载工具 • 每台机器可以用wget/scp/curl从数据源下载 Source host Wget/scp/curl Host Host Host … Host 直到遇到… 原因——并发数太高导致! • 连接数不足——connection refused • Proftpd/sshd子进程数太多——资源耗尽 • 网卡到达上限——网卡报警 设置并发度 • 对机器进行分组——组内并行,组间串行 Source host ① ③ ② Host Host Host Host Host Host Host Host Host 还是有问题 • 应用程序的逻辑变得更加复杂 • 部署系统/数据分发系统等每个系统都需要 重新写一遍几乎同样的串并行控制逻辑 • 传输有先后顺序,总体速度显著降低 于是我们有了第一代p2p传输工具 Source host p2p Host Host Host … Host 但这就行了吗? • 数据源的server是个单点 – 下游peer数不能超过1000 • 长尾——总有几个拖后腿的 • 源在hdfs上,需要做一次中转 • 下载速度还不够快 另外——关于流量控制方面 目录 背景 Gingko简介 Gingko的主体框架 Tracker 客户端 Gingko应用场景——全网分发 Gingko是什么? • 公司内网p2p数据分发工具(平台) • 简单的说:只要是1对多的数据分发都可以 通过gingko来完成。 – 数据/配置的周期性分发 – 程序包的部署 – 索引、广告库的下发 Linux下类似工具 • Ctorrent – / • µTorrent – / 为什么要自己再做一个? • 外部的p2p工具更多的是给普通用户使用, 而非工业化系统使用。 • All in automation——让数据分发更加自动化 • 定制化的功能点——站在巨人的肩膀上 • 高性能的tracker服务器 • 流量可控 Gingko需要解决的问题 • 一对多的数据分发 – 大规模——全公司所有机器 – 全并发——同时 – 整体分发速度要快(1.8T T表示单机传输耗时) – 减少长尾 • 网络流量控制 – 数据源总体网络流量限速 – 减少跨机房/跨地域流量 • 支持异构的hdfs/http源 Gingko当前使用现状 • 每天传输的数据量——700TB+ • 每天下载调用次数——160

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档