- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;;;;;;;
1.对外连接网络(网络出口层)分为CMNeT、云
专网、IP专网
1.CMNeT:用于公众用户访问智算中心
2.云专网:用于智算中心间互联、训推互联
3.IP专网:用于远程管理
2.内部互联网络分为业务/存储网络、管理网络、
参数面网络、数据面网络
1.业务/存储网络:业务网络用于互联网用户访问智算/通算等资源,存储网络用于调用共享存储资源
2.管理网络:主要包括业务管理(K8S平台、安全管理系统等)和IPMI(智能平台管理接口)
3.参数面网络:采用RoCE/IB实现集群内所有AI加速卡的高速互联
4.数据面网络:采用RoCE实现智算集群与高性能文件存储的高速互联;;
l聚焦大模型推理、离线渲染、生成式AI开发、边缘计算协同四大核心业务,满足人工智能项目开发全流程算力需求
l争取项目成果入选省级算力枢纽示范案例,带动“数据中心-智能终端-数据应用”产业链协同,助力贵州千亿级数字产业集群建设。;;
l1152张GPU理论总算力超46PFLOPS,可满足千亿参数大模型训练对算力的极致需求;
l主流GPU服务器支持8卡PCIe4.0插槽更具性价比(4卡算力密度低且占用更多机架,16卡需搭配高端服务器成本高);;
方案设计说明:
1、AI计算集群:AI计算集群间采用4*400GBRDMA网络,满足高带宽低时延通信需求;各节点同时通过25G网卡接入上联裸金属TOR并接入业务核心交换机。
2、HPC计算节点:采用100GBRDMA网络搭建超算集群,各节点同时通过10G网卡接入上联业务TOR,再上联接入存储核心交换机。
3、通用计算区:各服务器通过25G网卡接入上联计算TOR,为租户提供云主机、块存储等产品。
4、高性能存储:通过100G网络组成并行文件存储集群,;;
链路类型;
①业务网络:400G光纤(核心交换机-Leaf交换机互联)、25G光纤(Leaf交换机-GPU服务器连接),满足高带宽、低延迟业务需求。
②管理网络:10G网线(带内管理交换机-服务器BMC口)、1G网线(带外管理交换机-服务??独立管理网口),保障管理流量稳定传输。
③业务核心:通过400G光纤与Spine交换机、Leaf交换机互联,这样就能让业务流量(大模型训练数据传输)和管理流量(设备远程运维指令)在这些核心设备间高效流转,同时借助双机部署实现冗余,避免单点故障影响业务和管理功能;
设备类型;
1.管理平面:
1.管理节点通过10G高速通道(带内)和1G应急通道(带外)连接管理交换机
2.带内交换机通过40G链路与核心交换机互联,形成管理流量汇聚中枢
2.计算集群:
1.每台GPU服务器通过2条25G链路连接Leaf交换机(业务流量)
2.同时通过10G/1G链路分别连接带内/外管理交换机(监控与应急)
3.网络核心:
1.Leaf-Spine-Core构成三级CLOS架构,400G链路支持无阻塞传输
2.Leaf与Core之间26条400G链路(3主用+0.25备用/Leaf),通过MPO分线盒实现高密度互联
l核心层:Spine双机热备(S9850-32H);业务核心双节点(S9850-4C)
l接入层:Leaf双机负载分担(S6850-56HF);GPU服务器全冗余连接(直连)
l安全层:防火墙双机串联防护;全路径流量过滤
4.安全与出口:
1.防火墙通过10G链路过滤Leaf业务流量,100G链路连接出口路由器
2.出口路由器双链路连接防火墙,运行BGP协议实现公网接入;
网络分层;
技术实现要点
?端口聚合(LACP):
管理节点→管理交换机:2条10G链路聚合,带宽20Gbps,故障切换时间<50ms。
Leaf→Core/Spine:多条400G链路聚合,支持TB级带宽。GPU服务器→Leaf交换机:
您可能关注的文档
- 智算中心项目建设方案(44页 PPT).pptx
- 智算中心筑基数字经济新优势-单志广(23页 PPT).pptx
- 智算中心暨电力大模型创新平台解决方案(51页PPT).pptx
- 中国国家标准 GB/Z 37664.2-2025纳米制造 关键控制特性 发光纳米材料 第2部分:分散液中量子点质量测量.pdf
- GB/Z 37664.2-2025纳米制造 关键控制特性 发光纳米材料 第2部分:分散液中量子点质量测量.pdf
- 《GB/Z 37664.2-2025纳米制造 关键控制特性 发光纳米材料 第2部分:分散液中量子点质量测量》.pdf
- GB/Z 30556.9-2025电磁兼容 安装和减缓导则 第9部分:HEMP和HPEM的系统级敏感度评估.pdf
- 中国国家标准 GB/Z 30556.9-2025电磁兼容 安装和减缓导则 第9部分:HEMP和HPEM的系统级敏感度评估.pdf
- 《GB/Z 30556.9-2025电磁兼容 安装和减缓导则 第9部分:HEMP和HPEM的系统级敏感度评估》.pdf
- GB/T 46554-2025石油天然气工业 管道输送系统 机械连接件试验程序.pdf
- 中国国家标准 GB/Z 158-2025增材制造 设计 功能梯度增材制造.pdf
- 《GB/Z 158-2025增材制造 设计 功能梯度增材制造》.pdf
- GB/Z 42749.6-2025信息技术 IT赋能服务业务过程外包(ITES-BPO)生存周期过程 第6部分:风险管理指南.pdf
- 中国国家标准 GB/Z 42749.6-2025信息技术 IT赋能服务业务过程外包(ITES-BPO)生存周期过程 第6部分:风险管理指南.pdf
- 《GB/Z 42749.6-2025信息技术 IT赋能服务业务过程外包(ITES-BPO)生存周期过程 第6部分:风险管理指南》.pdf
- GB/T 46686.1-2025标准知识图谱 第1部分:实现指南.pdf
- 中国国家标准 GB/T 46686.1-2025标准知识图谱 第1部分:实现指南.pdf
- 《GB/T 46686.1-2025标准知识图谱 第1部分:实现指南》.pdf
- GB/Z 140-2025用于电量测量和监测、电能质量监测、数据采集和分析的装置的网络安全.pdf
- 中国国家标准 GB/Z 140-2025用于电量测量和监测、电能质量监测、数据采集和分析的装置的网络安全.pdf
最近下载
- 夏普AR1818复印机维修代码.doc VIP
- PA620系列保护测控装置说明书1.32.pdf
- 浙江理工大学2019-2020学年《实验心理学》期末考试试卷(B卷)含参考答案.docx
- 胖东来商贸集团各项管理制度.docx VIP
- 2025年部编中考语文修改病句训练试题(含答案).pdf
- (高清版)DB13∕T 5316-2020 电动汽车充电站消防安全技术标准.pdf VIP
- 浙江理工大学2019-2020学年《实验心理学》期末考试试卷(A卷)含参考答案.docx
- 标准图集-22G813 钢筋混凝土灌注桩图集.pdf VIP
- 2024oem代加工合同范本 (3).doc VIP
- 建标报告-一等活塞式压力计标准装置.doc VIP
原创力文档


文档评论(0)