大模型蒸馏项目:从DeepSeek 671B到3B实践与成果展示.pdfVIP

  • 1
  • 0
  • 约1.41万字
  • 约 10页
  • 2026-05-28 发布于北京
  • 举报

大模型蒸馏项目:从DeepSeek 671B到3B实践与成果展示.pdf

项目介绍

deepseekR1的671B版本效果非常惊艳,尤其是思维链的模式,对于解决复杂问题效果很好。今天

我们引入模型蒸馏,让一个小体量模型学会像deepseek一样考虑问题。以后如果遇到新发布的模型有某

种优良的特性,或者特别精通某个领域的知识,我们也可以采用类似的方式来处理。

1、项目背景

公司非常希望把deepseek大模型的思维链特性应用到现有的服务上,但是业务上无法支持部署

全量版deepseek,根据业务线实际的QPS,预估只能支持3B级别的模型。而且现在公司没有现成的数据

集,也无法抽调其他人员协助,短期内可用的显卡只有张4090,要求天拿出baseline。

2、项目架构

3、项目结果展示

问题:对于「初三在搀扶跌倒老后反被冤枉,但仍选择资助她千元」的,你有什

么看法?

3.1训练前:

这个展现了人性的光辉,体现了民族传统美德中的尊敬老人、的良好品

质。它不仅展示了初的与善良,也反映了社会上积极正面的正能量。

首先,这位在发现老跌倒时能够地站出来进行

文档评论(0)

1亿VIP精品文档

相关文档