- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目标:原型搭建,业务建模,(流量,网络架构测试,业务建模,BUG,文档)环境模型:OFED基础模型,基础网络模型验证客户现场IB业务测试业务:MPI/Ceph/ib_write/TensorFlow/OFED/iperf/GPU指标达到阿里要求。问题:RDMA大流量数据情况下s6500交换机cache不满足性能要求/Bug402005完成<<RDMA技术白皮书>>20%,完成<<RDMA测试报告>>70%技术:复杂业务搭建本月11项技术难点,现已突破7项,4项待突破;关键突破:IB业务源端口变化突破;目标/子目标成果/工具进展说明分析RDMA 原型搭建 带宽100%,时延1.8us带宽90% 时延2us工具:PingPong作业两个模型:服务器到服务器,服务器到交换机到服务器关键点:服务器端升级网卡固件和驱动,交换机上配置PFC,ECNOFED:跨网段跨网段,满带宽发送RDMA数据跨网段,带宽46Gbps工具:Mellanox OFEDRDMA跨网段发送和接收数据,带宽46Gbps关键点:服务器环境,交换机上路由OFED:流量端口可变 UDP源端口变化,负载均衡Q>0 源端口变化工具:Mellanox_OFEDQ>0 源端口出现变化关键点:服务器BIOS,网卡,固件需要升级到最新版本OFED: 稳定高带宽支持 Q=300 满带宽发送RDMA数据Q=300 带宽>=50Gbps工具:Mellanox_OFEDQ=300 带宽>=50Gbps关键点:配置CPU关闭节能,ib_write高带宽需要多线程程序的配合。Iperf+RDMA:抓包分析 RDMA没有丢包尚未有结果工具:Iperf,Ib_write,TCPDump客户RDMA下iperf800M,不丢包需要编写程序RDMA阿里工程师建议程序抓包分析Ceph:基于RDMA的应用 RDMA 流量70%TCP 情况下 110Mb/s距离阿里指标70%带宽还很远工具:Ceph, Ibverb每个用户I/O=200M/S //5.1架构师推荐RDM阿里业务建模工程师推荐内部使用CephRDMA MPI 程序部署 RDMA 流量70%流量指标3Gpbs工具:OpenMPI可以多台服务器运行,可以较长时间运行关键点:单端口网卡,或双端口网卡配置RoCE LAG工作模式MPI PingPong程序测试 RDMA 流量90%流量指标23Gbps,流量90%工具:OpenMPI流量指标23Gbps,流量90%RDMA大流量数据情况下s6500交换机cache不满足性能要求/Bug402005GPU + MPI 业务原型 RDMA流量长时间运行原型搭建完毕,可以较长时间运行工具:CUDA+OpenMPIGPU+MPI 例子程序已经部署完成GPU计算性能存在瓶颈,未进一步优化关键点:配置GPU 驱动程序TensorFlow+RDMA gRPC_RDMA时延测试 gRPC_RDMA消息时延,尚未有结果工具:TensorFlow+RDMATensorFlowOnSpark 已部署支持gRPC已测试, 支持gRPC_RDMA正在测试TensorFlow+GPU Direct+RDMA RDMA 流量90% GPU Direct+RDMA 时延(xx)usGPU + RDMA 时延,尚未有结果工具:TensorFlow+CUDA+RDMATensorFlow可以发现M2070,但是不支持使用其进行GPU Direct计算,需要更新的GPU 支持GPU Direct服务TensorFlow 支持compute capability 3.0以上GPU,我司配置的M2070尚不支持TensorFlow受控RDMA 技术在25Gbps/100Gbps数据中心网络中的应用李辉转正申请PPT技术概述技术原理技术标准服务部署数据实验复杂业务OpenMPI+RDMAOpenMPI+GPU Direct + RDMACeph+RDMATensorflow+gRPC+RDMAQARDMA技术概述RDMA(Remote Direct Memory Access)技术全称远程直接数据存取,就是为了解决网络传输中服务器端数据处理的延迟而产生的,本文主要介绍RDMA的原理、部署、在数据中心25Gbps网络中的典型业务和使用限制RDMA最早专属于Infiniband架构,随着在网络融合大趋势下出现的RoCE和iWARP,这使高速、超低延时、极低CPU使用率的RDMA得以部署在目前使用最广泛的以太网上。RDMA业务应用广泛,iSICI, ESXI, SAN, Ceph, MPI, Hadoop, Spark, Tensorflow等应用软件都有使用RDMA服务RDMA技术原理 RDMA技术原理Kernel BypassZero copy低
文档评论(0)