网站大量收购独家精品文档,联系QQ:2885784924

浙大-2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告.pptx

浙大-2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告.pptx

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

DeepSeek

智能时代的全面到来和人机协作的新常态

2025年2月;

一、智能演变

二、人机协作

三、产业现状

四、教育成长;;

对比维度;

大模型带来大知识

全体人类知识空间;

三体人如何学习地球知识?;

三体人如何学习地球知识?

电磁波探测器拯救派;

拯救派

人类反馈实现对齐

动态反馈、价值博弈;

电磁波

地球文明信息

原始数据、无目标性

原始数据基建;

三体人如何学习地球知识?

电磁波探测器拯救派;

DeepSeek-R1-Zero的训练过程

结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日;

探测器+拯救派

强化学习

Reinforcementlearning/GRPO

数学题自动判分/编程题实战演练/阶梯进化;

AconversationbetweenUserandAssistant.

Theuserasksaquestion,andtheAssistantsolvesit.

Theassistantfirstthinksaboutthereasoningprocessinthemindandthenprovidestheuserwiththeanswer.

Thereasoningprocessandanswerareenclosedwithin

think/thinkandanswer/answertags,respectively,i.e.,thinkreasoningprocesshere/thinkanswer

answerhere/answer.

这是用户和助手之间的对话。

用户提出一个问题,助手解决它。

助手首先在脑海中思考推理过程,然后为用户提供答案。

推理过程和答案分别包含在思考/思考和回答/回答标签中。即:

思考推理过程在这里/思考

回答在这里回答/回答;

Ahamoment顿悟时刻

人类长期思考后的灵感闪现

强化学习中的奖励信号引导

DeepSeek-R1-Zero的训练过程

结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.129482025年1月22日;

DeepSeek-R1-Zero的训练过程

结合准确性奖励(数学、编程等任务的可验??结果)和格式奖励(强制输出结构化标签),通过GRPO强化学习策略后训练V3模型https://huggingface.co/papers/2501.129482025年1月22日;

求是小学组织去距离90公里的博

物馆春游,全班同学8:00从学校

坐大巴车出发。班主任老师因为

有事情,8:10自己自驾小车以大

巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问:

(1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远?;

求是小学组织去距离90公里的博

物馆春游,全班同学8:00从学校

坐大巴车出发。班主任老师因为

有事情,8:10自己自驾小车以大

巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问:

(1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远?;

求是小学组织去距离90公里的博

物馆春游,全班同学8:00从学校

坐大巴车出发。班主任老师因为

有事情,8:10自己自驾小车以大

巴车快1/3的速度追赶,结果比大巴车提前20分钟到。问:

(1)大巴和小车的速度各是多少?(2)班主任老师追上大巴的地点距离博物馆还有多远?;

思维链(ChainofThought,CoT)

-通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术

-核心是将问题拆解为多个中间步骤,引导模型生成逻辑链条,从而增强推理的准确性和可解释性

基本原理

-分布推理:思维链通过将复杂问题分解为更小的子问题,逐步构建答案

-显示中间过程:与传统直接输出答案的方式不同,CoT要求模型引入推导过程;

DeepSeekR1

文档评论(0)

沧海一粟2020 + 关注
实名认证
内容提供者

文不能提笔控萝莉,武不能骑马战人妻,入佛门则六根不净,入商道则狼性不足,想想还是做文字民工!

1亿VIP精品文档

相关文档