- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
浙江大学DS系列专题
DeepSeek技术溯源及前沿探索
主讲人:朱强
浙江大学计算机科学与技术学院
人工智能省部共建协同创新中心(浙江大学)
hittps.//Dersoncn/zhug
四、DeepSeek
I一、语言模型
五、新一代智能体
二、Transformer
:Outline
2
LanguageModeling
对于任意的词序列,计算出这个序列是一句话的概率
Isawaca
car
Isawacatl
Isawacatonthechair
Isawacatrunningafteradog
语言模型:终极目标
我们每天都和语言模型打交道:
Isawacatinmydream
浙江大学
ANG材NIVEPSITY
3
编码:让计算机理解人类语言
1|0|00
01|00
001|0
0001
语言模型:基本任务
She
is
my
mom
One-hotEncoding有什么缺点吗?
One-hotEncoding
只有一个1,其余均为0
浙江大学
ANG材NIVEPSITY
4
WordEmbedding
用一个低维的词向量表示一个词
能使距离相近的向量对应的物体有相近的含义
0.99
0.99
0.05
0.1
…
0.99
0.05
0.93
0.09
…
0.02
0.01
0.99
0.98
…
0.98
0.02
0.94
0.3
20维的向量用one-hot和wordembedding的方法分别可以表示多少单词?
编码:让计算机理解人类语言
鲸鱼
海豚
鹦鹉企鹅
游泳飞翔
浙江大学
ANG材NIVEPSITY
5
Abottleoftezgüinoisonthetable.Everyonelikestezgüino.
Tezgüinomakesyoudrunk.
Wemaketezgüinooutofcorn.
(1)Abottleofisonthetable.
(2)Everyonelikes
(3)makesyoudrunk.
(4)Wemakeoutofcorn.
结合句子语境我们可以猜测:
tezgüino是一种由玉米制作的酒精类饮料
(1)(2)(3)(4)tezgüino1111motoroil1000tortillas0101
wine1110
浙江大学
ANG材NIVEPSITY
两行内容十分相近
两个单词含义相近
编码:让计算机理解人类语言
WordEmbedding
6
Before:P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老)
2-gram:P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老)
3-gram:P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠抓老)
■基于神经网络的LSTM/GRU(2000after)
■基于统计的N-gram(1970after)■Transformer(2017after)
语言模型:技术演化
中
Input
Embedding
Inputs
AdaNom
Muft-Head
Attention
PositionalEncocing
Food
7
Iamprettysmart!
个
Decoder
常见的深度学习模型框架,可用于解决Seq2Seq问题
Encoder
我很聪明!
可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)
Encoder-Decoder
浙江大学
ANG材NIVEPSITY
Representation
隐空间
8
四、DeepSeek
二、Transformer
:Outline
9
Transformer:理论架构创新
·自注意力机制:支持并行计算/全局上下
文档评论(0)