网站大量收购独家精品文档,联系QQ:2885784924

智能算力与云计算融合解决方案2025.docxVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

智能算力与云计算融合解决方案2025

一、云计算与智算加速融合,开启智能化新纪元

当前,全球人工智能技术迅猛发展,已经成为世界科技强国重点布局的关键赛道。随着智能算力逐渐成为算力结构的主要组成,传统的通用云计算正加速与智算融合,升级成为可服务于人工智能技术和应用发展的智能云。

智能云通过对大规模异构智算资源的融合与调度,能够屏蔽各种底层复杂的计算资源、兼容多种芯片架构和开源框架,提供丰富的云计算工具,提高算力资源利用率,保障各种AI模型算法在智能云平台上实现高效便捷地运行。

从体系架构来看,智能云通常包括智能云基础设施服务AIIaaS、智能云平台服务AIPaaS、大模型服务MaaS、智能云应用服务AISaaS等。

具体如图17所示。智能云作为新一代人工智能发展的驱动力量,正在重构云服务产业格局,加速形成新质生产力。

图17智能云体系架构图

(一)AIIaaS夯实云计算技术底座,持续提升智能软硬件效能

AIIaaS以智算资源为核心,依托对智算资源的融合提供智能化云服务,并使用调度管理工具充分发挥智能云资源池能力。

在传统模式的IaaS中,云资源池以通用计算为主体,随着全球AI大模型的井喷式发展,智能算力需求增速远超芯片性能提升和产能扩张速度的上限,其中以GPU(GraphicsProcessingUnit,图形处理器)为代表的芯片成为提供智能算力的主力军,借助云计算能够实现零散智算资源集中与纳管的优势,各大云厂商纷纷在智算领域进行布局,形成千卡、万卡智能云集群,AIIaaS成为云计算新范式--以云服务的方式提供可便捷获取的智能算力。

云计算与智算资源融合形成的智能云能够为大模型训练和推理提供充足的算力资源,已经成为促进人工智能领域发展的坚实技术底座。

AIIaaS提供智算基础支撑,为智能云提供坚实的底层资源。

一是智能计算能够提供丰富多样的智能云资源池。区别于传统的依靠CPU提供算力,在AIIaaS中主要依靠GPU、NPU(NeuralProcessingUnit,神经网络处理单元)、TPU(TensorProcessingUnit,张量处理单元)等新型芯片提供智算资源,例如谷歌云通过其云服务平台GoogleCloud将TPU作为服务提供给外部用户,使得开发者和企业能够利用TPU的强大计算能力进行机器学习模型的训练和推理。

二是智能网络能够提供适用于智算场景的组网选择。区别于传统的以太网组网选择,智算场景对云资源池的网络提出了高带宽、低延时和高可靠的要求,以IB(InfiniBand,无限带宽)、RoCE(RemoteDirectMemoryAccessoverConvergedEthernet,基于聚合以太网的远程内存直接访问技术)为代表的高性能远程直接内存访问(RemoteDirectMemoryAccess,RDMA)网络成为智能网络的首选,例如火山引擎在高性能计算集群内使用RDMA技术实现高速网络互联,腾讯云的高性能计算集群以高性能云服务器为节点,通过RDMA互联,大幅提升网络性能。

三是智能存储能够提供适用于智算场景的存储能力。目前云计算的后端存储系统多为基于开源的软件存储协议,主要使用Ceph(一种开源的分布式存储系统),iSCS(IInternetSmallComputerSystemInterface,互联网小型计算机系统接口)或者厂商自研的存储平台。

由于目前使用的Ceph和iSCSI在协议上的限制,在高性能块存储的场景下,需要在存储的后端和前端通过基于SPDK(StoragePerformanceDevelopmentKit,存储性能开发工具包)和DPDK(DataPlaneDevelopmentKit,数据平面开发套件)的用户态框架来提升带宽性能,在新型的块存储上,各大厂商正在向NVMe(Non-VolatileMemoryExpress,非易失性快速存储器)接口演进。

AIIaaS调度管理层提供资源管理功能,助力智能云提效升级。

一是资源管理能够提升智能云多类型资源的调度分配能力。在AIIaaS中存在多种资源管理模块,包括容器平台、虚拟化平台和裸金属服务器等,各个资源管理模块使用智能调度和管理功能自动分配和优化资源调度,实现提高整个系统工作效率的目标。

二是基础软件创新优化智能云调度管理能力。GPU作为智能云的核心计算资源,在对外提供云服务时仍存在异构化的特点,为满足用户的不同需求,在AIIaaS中部署统一的GPU开发框架有助于消除支撑层智算资源异构化带来的弊端,加速AI应用落地。

在调度管理层面,使用算网云操作系统完成智算资源的调度管理,充分发挥智算集群的工程化能力,实现大规模芯片资源高效协同工作。

三是关键技术突破提升智能云资源利用效率。虚拟化作为云计

文档评论(0)

150****5147 + 关注
实名认证
文档贡献者

二级建造师持证人

分享知识,传播快乐!

领域认证该用户于2024年03月19日上传了二级建造师

1亿VIP精品文档

相关文档