- 1
- 0
- 约7.18千字
- 约 29页
- 2025-10-22 发布于湖南
- 举报
AI无界,Kimi万亿参数大模型的全球云网架构演进之路
AIWithoutBorders:TheGlobalCloudNetworkArchitectureEvolutionPathofKimisTrillion-ParameterLLM
Kimi全球训推网络用云实践分享
kimiGlobalTraining-InferenceNetworkcloudpracticesharing
CONTENT目录01Kimi业务发展历程
CONTENT
目录
KimisBusinessDevelopmentHistory
02AIInfra之网络
AIInfra:Networking
03Kimi网络实践
KimiNetworkingPractices
04未来演进思考
FutureEvolutionandThinking
KIMI业务发展历程
kimiSBusinessDevelopmentHistory2023
·LongLLM时代诞生支持20万字输入的
·LongLLM时代诞生支持20万字输入的kimi智能助手上线kimi开放平台发布
kimi-researcher发布
kimiK2发布并开源·kimiK2更新0905
200万字上下文;
·kimiK0-math模型发布kimiK1视觉思考模型发布
2024
2024
KimiK2:全球领先的开源基础模型
kimik2:GloballyLeadingopensourceFoundationModel
KimiK2取得开源模型中的SOTA成绩,展现出在代码、Agent等任务上的领先能力。
第一个agent原生的通用模型。
截止7月17号,在斯坦福大学和LMSYS团队组织的大模型公开竞技平台LMArena上,KimiK2位列开源模型的第一位,总体排名第五(前四均为闭源模型)。
Kimi「深度研究」:模型即Agent
kimiDeepResearch:ModelasAgent
23
23轮
推理轮次
74
74个
Search关键词数量
206个
206个
搜索的URL数量
10,000
10,000
生成报告字数
11.6次
11.6次
Browser工具使用次数
End-to-End
End-to-EndRL
端到端强化学习
ToolUse:Search、Browse、Code、Write
工具使用:搜索、浏览、编程、写作
AI业务系统中网络特点
NetworkcharacteristicsinAIBusinesssystems
海量算力
CPU通算-GPU智算万卡、10万卡规模
海量数据
数据集:TB-PB
数据流动:高频、大规模
为什么需要注重网络的设计?
多业务混跑
业务类型多:训练、推理、在线服务;数量流向复杂;
网络是连接数据和算力的核心底座,一张好的网络,可以帮助我们更好的提升模型训练的效率
算力整合(四通八达的路网系统)易构、异地算力整合流量调度
算力整合
(四通八达的路网系统)
易构、异地算力整合
流量调度
(交通指挥系统)
有规则、有优先级、有序
(公路质量高,车道多)
高带宽、低时延的传输数据
关键衡量指标:规模、稳定性、即时弹性、路由策略丰富度、流量可视
网络用途分析
AnalysisofNetworkuses
数据准备与预处理模型架构设
数据准备与预处理
模型架构设计与预训练
模型微调与对齐
模型评估与部署
数据准备阶段
公开数据集、互联网内容、三方合作数据获取上传依赖EIP、NAT、OSS、专线、PrivateLink
预训练阶段
GPU节点内NVLink互联,节点间RDMA通信,Checkpoint存储搬运
模型部署阶段
镜像传输,模型传输,推理集群分布式推理,模型应用请求推理服务
大模型推理
大模型推理
大模型应用
大模型训练
AI任务调度、训练推理框架、监控系统
GPU算力、通信、高性能存储
公有云基础设施
Kimi模型训推视角看网络架构设计
NetworkArchitectureDesignfromkimiModelTrainingInferenceperspective
训练场景
?基础大模型训练需要的数据是海量的
?数据集整合-预处理-训练-强化学习等流量需要在多个算力集群或者地域之间流转
规模优先
带宽足够大
弹性足够高
成本足够低
训
原创力文档

文档评论(0)