- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DCU(DeepComputingUnit)规格参数Z100Z100L芯片计算核心3840频率1319MHz1600MHz应用场景全精度支持AI优化适配服务器2U/4U风冷服务器性能指标双精度浮点运算FP6410.1TFLOPS---单精度浮点运算FP3210.1TFLOPS12.2TFLOPS半精度浮点运算FP1620.2TFLOPS24.5TFLOPSINT840.5TOPS49.1TOPS存储规格显存容量GPU内存32GBHBM2显存带宽1024GB/s接口类型PCIe接口PCIe4.0x16GPU互联XHMI互联200GB/s散热方式散热模式风冷风冷最大功耗TDP250W280W虚拟化Docker/CSVDocker/CSV尺寸规格尺寸全高全长双宽268.6*111.15*38.75mmDCU处理器,采用通用GPU架构(GPGPU),去掉显示和图形渲染功能,专注与图形无关的计算(HPC和AI)DCU异构加速卡,有多种板卡设计方案,风冷标卡是主线,Z100L比Z100提升20%的性能自2019年起开始应用在国内多个大型算力中心,累积有20万片大规模量产、部署和应用经验DCU处理器风冷标卡Z100系列浸没(液冷)扣卡液冷标卡DCU加速卡Roadmap海光DCUBOWEN算力大幅提升!已量产海光DCUKONGMINGKONGMING1die+4HBMCOWOS128CUFP6418TFP3218TFP1636TUpto1.1GHZ400W32-64GBGDDR1.5TB/s16xPCIe4.0Lanes5nm算力优化:60CU,3840个计算核心,FP64:FP32=1:1,16G/32GHBM2高速缓存,FP64性能可达10TFLOPS。DCUZ100海光DCUZIFANG7nmZIFANG1die+4HBMCOWOS64CUFP6410TFP3210TFP1620TUpto1.25GHZ400W32GBHBM21TB/s16xPCIe4.0LanesxHMIx2,25Gbps已量产海光DCUZIYA7nm1die+4HBMCOWOS64CUFP646.5TFP3213TFP1626T350W32GBHBM21TB/s16xPCIe4.0LanesZIYAAI优化:3840个FP32CORE频率提升,峰值FP32性能可达12TFLOPS,兼容ROCM软件生态,领先其他国产化GPU。DCUZ100L17年5月份立项,18年6月份流片,19年4月份量产子牙、子房(Z100系列)、孔明、伯温四代产品整机适配情况Hygon平台X7340H0(完成)2xDCU轻量训练X785-H30(完成)X7840H0(2022.6,HGCPU2号/3号)8xDCU高端X745-H304xDCU通用(完成)Intel平台X620G30/G40(完成)2xDCU轻量X640G30/G40(完成)8xDCU高端Hygon、Intel平台整体兼容DCU-操作系统适配进度(2022.09)CPU架构OS版本内核版本适配进展DTK版本备注X86/C86(Intel、HG)CentOS-957已适配所有版本CentOS-1160已适配DTK-22.04方德NFS-957已适配所有版本CentOS7.6版本Ubuntu22.045.4.0-42-generic已适配DTK-22.04麒麟KylinV10SP24.19.90-24.4已适配DTK-22.04麒麟KylinV10SP14.19.90-23.8已适配DTK-22.04统信UOS(Server1021e)4.19.90-2108.up2.uel20.x86_64已适配DTK-22.04ARM(FT)麒麟KylinV10国防版4.19.90-25.10.v2101.ky10.aarch64适配中DTK-22.04预计12月底已适配计划适配规划适配中:(11月份)CentOS8.5、OpenEuler和龙蜥,(12月份)飞腾双精度单精度理论实测性能理论性能和实际测试性能接近:算力效率高、无参数性能虚标软件调度能力优异:底层硬件和软件高度融合DCU实测性能性价比DCU性价比分析,以V100为参照实测性价比实测性能比DCU计算效率及扩展性无论在可用性还是易用性层面,在生产环境中可高效使用在计算机视觉领域(CV)和自然语言处理领域(NLP)领域,经典网络在DCU上的实测性能接近V100的80%,计算效率与V100持平,并在持续优化中单卡性能效率比计算机视觉领域(CV),诸如ResNe
文档评论(0)