- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
DeepSeek模型优势:算力、成本角度解读
浙江大学计算机学院
浙江大学人工智能协同创新中心
王则可
2025年2月
DeepSeek优势
DeepSeek的优势:系统感知的算法创新(量化基因)算法:霸榜,有创新(MLA、特定MoE)
■系统:低成本、高性能
浙江大学ZHEJIANGUNIVERSITY算力的基本概念
浙江大学
ZHEJIANGUNIVERSITY
■什么算力?“对信息数据进行计算,实现目标结果的能力”
■传统算力:信息计算力
■现代算力:信息计算力、数据存储力、网络运载力
浙江大学ZHEJIANGUNIVERSITY
浙江大学
ZHEJIANGUNIVERSITY
大脑草绳、石子算盘、算筹?计算器、计算机
■原生算力:大脑(可处理复杂逻辑,但不能高速处理简单运算)
外部算力工具:
■草绳、石子■算盘
■计算机:算力提供者(可高速简单运算,不能处理复杂逻辑)
浙江大学ZHEJIANGUNIVERSITY
浙江大学
ZHEJIANGUNIVERSITY
“Ithinkthereisaworldmarketformaybefivecomputers.
(我想全世界只需要五台电脑)
--ThomasWatson,IBM创始人,1943
大型机时代1940-
1980
■大型机时代:数字化未开始,算力需求潜力未发掘
浙江大学ZHEJIANG
浙江大学
ZHEJIANGUNIVERSITY
大型机时代PC时代云计算时代人工智能时代
1940-1980-2000-2020-
198020002020
■大型机时代:数字化未开始,算力需求潜力未发掘PC时代:一个应用只需一台电脑,算力够
■云计算时代:应用需要超过一台机器的算力,算力基本够
■人工智能时代:算力开始不足,需大量高性能Al加速器
人工智能大模型算力估计
浙江大学
ZHEJIANGUNIVERSITY
■人工智能大模型算力估计
1,数据量(D)15*模型参数量(N)
■万亿模型(N)=1000*109=1012
■数据量(D)15*1012=1.5*10132,计算次数C≈6*N*D
■万亿模型计算次数C≈6*N*D≈1.5*1025
OpenAI.ScalingLawsforNeuralLanguageModels,2020
浙江大学ZHEJIANGUNIVERSITY人工智能计算平台成本估计
浙江大学
ZHEJIANGUNIVERSITY
算力存力运力
算力(每秒)
显存
运力
生态
政策风险
成本
华为910B
320T=3.2*1014
32GB
240GB/s
较好
无
12万
英伟达H800
1000T=1015
80GB
900GB/s
好
有
25万
■万亿大模型预训练系统成本估计
■条件:计算量C≈6*N*D≈1.5*1025
■最低时间、成本估计
■单H800(25万):1.5*1010秒(174000天)
■1000张H800(2.5亿):1.5*107秒(174天)
浙江大学ZHEJIANGUNIVERSITY大模型指导法则ScalingLaw:富则火力覆盖
浙江大学
ZHEJIANGUNIVERSITY
数据集模型参数量算
数据集模型参数量
7
6
TestLoss5
TestLoss
4
3
----L=(Cmin/2.3·108))-0.050
----
2+
10110-910-310-1
101
10-9
Parametersnon-embeddingDataset
Parameters
non-embedding
DatasetSize
tokens
PF-days,non-embedding
■大模型扩展规律(资本非常喜欢确定性故事)
■算力:算力越大(X轴),模型效果越好(Tes
您可能关注的文档
- 2024年终端安全洞察报告-火绒安全.docx
- 2025-B站世界音乐文化集招商通案.docx
- 2025春夏女装连衣裙白皮书.docx
- 2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告.docx
- 2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告-浙江大学.docx
- 2025年DeepSeek完全实用手册V1.0-从技术原理到使用技巧-至顶AI实验室.docx
- 2025年操作系统停服应用指南报告-阿里云.docx
- 2025年抖音电商食品饮料营销趋势报告-有米有数.docx
- 2025年人人懂AI之从机器学习到大模型报告-阿里云.docx
- 2025年中国企业出海:网数合规案例分析报告.docx
文档评论(0)