- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DeepSeek核心技术白话解读;
全校Al公开课DeepSeek与未来AI创新;
DeepSeek的突破性定位;
报告主题:DeepSeek核心技术白话解读;
报告主题:DeepSeek核心技术白话解读;
机器学习模型:一种映射,在给定输入情况(x)下、输出一定结果的函数f(x)。
机器学习:根据反馈信号调整模型的参数,以使模型的表现符合预期
Xf(x)
输入模型输出;
2.1学习策略创新:背景知识;
报告主题:DeepSeek核心技术白话解读;
报告主题:DeepSeek核心技术白话解读;Question:Ifa1,thenthesumoftherealsolutionsofVa-Va+x=xisequaltoResponse:think
Tosolvetheequationva-va+x=x,letsstartbysquaringboth…
(va-va+x)2=x2→a-va+x=x2.
Rearrangetoisolatetheinnersquarerootterm:
(a-x2)2=a+xa2-2ax2+(x2)2=a+x一x?-2ax2-x+(a2-a)=0
Wait,wait.Wait.ThatsanahamomentIcanflaghere.
Letsreevaluatethisstep-by-steptoidentifyifthecorrectsumcanbe…
Westartedwiththeequation:
Va-√a+x=x
First,letssquarebothsides;
a-va+x=x2一ya+x=a-x2
Next,Icouldsquarebothsidesagain,treatingtheequation:…;
大幅增加后训练阶段的可扩展性,降低数据标注成本
开启LLM推理能力的自我进化之门:与其直接教解题思路,
不如让模型自己悟出更好的
从强人工智能到超人工智能?;
深度神经网络的核心思想是信息的逐层传播与变换
传播的多样性:CNN关注空间局部性,RNN强调时序依赖,Transformer实现全局交互,但均遵循“输入→处理→输出”的传播逻辑。
变换的核心性:无论线性变换、非线性激活,还是注意力权重的动态计算,本质上都是对信息的
加工和提取。
目标的一致性:最终目标是通过层级变换,将原始输入映射到有意义的输出。;
前向计算网络:
实现多层非线性变换,大约2/3的模型参数集中于此
自注意力机制:
其核心思想是通过动态计算输入元素间的权重,捕捉
元素之间的复杂依赖关系,赋予模型强大的上下文建
模能力。参数量占约1/3,但其计算复杂度为输入序
列长度的平方,在长文本条件下消耗了大部分计算存
储资源;
大模型的过参数化:参数量远超过了拟合训练数据所需的最小参数量,但学习到的
模型可能只存在于一个低本质维度的子空间中。这是Deepseek模型结构创新的重
要前提
报告主题:DeepSeek核心技术白话解读;
Feed-ForwardNetwork
RMSNorm
Attention
RMSNorm;
使用
分布
采用
理;
反向传播;
InputIWeight
Scaing
FachorScaing
Factor
Nc
No
Nc
X
TersorCoro
Output
*□*□二
CUDACore;
强化学习
多头潜在注意力(MLA)
混合专家结构(MOE)
FP8混合精度训练
分布式训练优化;
段位;
报告主题:DeepSeek核心技术白话解读;
“白银”段位:LLM作为Agent,与其他软件系统进行连接和功能扩展
检索增强型生成模型RAG(Retrieval-AugmentedGeneration)Pipeline
魅澜返回;
报告主题:DeepSeek核心技术白话解读;
报告主题:DeepSeek核心技术白话解读;
DeepSeek与未来AI创新
第四部分
思考与展望;
DeepSe
文档评论(0)