Deepseek为开源领域贡献价值不亚于llama
1、deepseek的创新有哪些?
2、deepseek带来的影响有哪些?
3、deepseek、mistral-small、qwen2.5-max哪个好?
4、畅想2025
占冰强AIGCLINK2025.02
•数据集准备创新:初步实现小部分依赖人类数据,大部分依赖机器强化学习
•模型训练架构创新:MLA+MOE+MTP
•算力调配系统创新:并行训练框架HAI-LLM,负载均衡优化实现moe训练gpu利用率低的问题,通信优化,内存优化,计算优化(FP8)
•底层硬件调用创新:部分直接使用了PTX而非底
您可能关注的文档
最近下载
- 旅居房车设计说明书.doc VIP
- 大明英烈传朱太公列传.pdf VIP
- 大明英烈传列传.pdf VIP
- 海尔冰箱BCD-248WBCS ZA说明书.pdf VIP
- 2001款0204宝马7系735745Li_汽车使用手册用户操作指南驾驶车主车辆说明书电子版.PDF
- 交通运输行业行业深度报告:无人机反制系统-奠定低空经济安全发展之基石.pdf VIP
- 人工智能时代语言研究中的伦理问题-Ethical Issues in Language Research in the AI Era.pdf VIP
- 2025年度广东省广州市小学五年级上学期期末测试数学试题.docx VIP
- 彝学研究史.PDF VIP
- 自考英语(二)新版教材课文翻译、课后习题及考前重点笔记整理.pdf VIP
原创力文档

文档评论(0)