智算中心建设项目解决方案(43页PPT).pptxVIP

智算中心建设项目解决方案(43页PPT).pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;;;;;;;

1.对外连接网络(网络出口层)分为CMNeT、云

专网、IP专网

1.CMNeT:用于公众用户访问智算中心

2.云专网:用于智算中心间互联、训推互联

3.IP专网:用于远程管理

2.内部互联网络分为业务/存储网络、管理网络、

参数面网络、数据面网络

1.业务/存储网络:业务网络用于互联网用户访问智算/通算等资源,存储网络用于调用共享存储资源

2.管理网络:主要包括业务管理(K8S平台、安全管理系统等)和IPMI(智能平台管理接口)

3.参数面网络:采用RoCE/IB实现集群内所有AI加速卡的高速互联

4.数据面网络:采用RoCE实现智算集群与高性能文件存储的高速互联;;

l聚焦大模型推理、离线渲染、生成式AI开发、边缘计算协同四大核心业务,满足人工智能项目开发全流程算力需求

l争取项目成果入选省级算力枢纽示范案例,带动“数据中心-智能终端-数据应用”产业链协同,助力贵州千亿级数字产业集群建设。;;

l1152张GPU理论总算力超46PFLOPS,可满足千亿参数大模型训练对算力的极致需求;

l主流GPU服务器支持8卡PCIe4.0插槽更具性价比(4卡算力密度低且占用更多机架,16卡需搭配高端服务器成本高);;

方案设计说明:

1、AI计算集群:AI计算集群间采用4*400GBRDMA网络,满足高带宽低时延通信需求;各节点同时通过25G网卡接入上联裸金属TOR并接入业务核心交换机。

2、HPC计算节点:采用100GBRDMA网络搭建超算集群,各节点同时通过10G网卡接入上联业务TOR,再上联接入存储核心交换机。

3、通用计算区:各服务器通过25G网卡接入上联计算TOR,为租户提供云主机、块存储等产品。

4、高性能存储:通过100G网络组成并行文件存储集群,;;

链路类型;

①业务网络:400G光纤(核心交换机-Leaf交换机互联)、25G光纤(Leaf交换机-GPU服务器连接),满足高带宽、低延迟业务需求。

②管理网络:10G网线(带内管理交换机-服务器BMC口)、1G网线(带外管理交换机-服务??独立管理网口),保障管理流量稳定传输。

③业务核心:通过400G光纤与Spine交换机、Leaf交换机互联,这样就能让业务流量(大模型训练数据传输)和管理流量(设备远程运维指令)在这些核心设备间高效流转,同时借助双机部署实现冗余,避免单点故障影响业务和管理功能;

设备类型;

1.管理平面:

1.管理节点通过10G高速通道(带内)和1G应急通道(带外)连接管理交换机

2.带内交换机通过40G链路与核心交换机互联,形成管理流量汇聚中枢

2.计算集群:

1.每台GPU服务器通过2条25G链路连接Leaf交换机(业务流量)

2.同时通过10G/1G链路分别连接带内/外管理交换机(监控与应急)

3.网络核心:

1.Leaf-Spine-Core构成三级CLOS架构,400G链路支持无阻塞传输

2.Leaf与Core之间26条400G链路(3主用+0.25备用/Leaf),通过MPO分线盒实现高密度互联

l核心层:Spine双机热备(S9850-32H);业务核心双节点(S9850-4C)

l接入层:Leaf双机负载分担(S6850-56HF);GPU服务器全冗余连接(直连)

l安全层:防火墙双机串联防护;全路径流量过滤

4.安全与出口:

1.防火墙通过10G链路过滤Leaf业务流量,100G链路连接出口路由器

2.出口路由器双链路连接防火墙,运行BGP协议实现公网接入;

网络分层;

技术实现要点

?端口聚合(LACP):

管理节点→管理交换机:2条10G链路聚合,带宽20Gbps,故障切换时间<50ms。

Leaf→Core/Spine:多条400G链路聚合,支持TB级带宽。GPU服务器→Leaf交换机:

您可能关注的文档

文档评论(0)

安狗狗方案 + 关注
实名认证
服务提供商

专注分享全行业解决方案

1亿VIP精品文档

相关文档