DeepSeek技术溯源及前沿探索.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

浙江大学DS系列专题

DeepSeek技术溯源及前沿探索

主讲人:朱强

浙江大学计算机科学与技术学院

人工智能省部共建协同创新中心(浙江大学)

hittps.//Dersoncn/zhug

四、DeepSeek

I一、语言模型

五、新一代智能体

二、Transformer

:Outline

2

LanguageModeling

对于任意的词序列,计算出这个序列是一句话的概率

Isawaca

car

Isawacatl

Isawacatonthechair

Isawacatrunningafteradog

语言模型:终极目标

我们每天都和语言模型打交道:

Isawacatinmydream

浙江大学

ANG材NIVEPSITY

3

编码:让计算机理解人类语言

1|0|00

01|00

001|0

0001

语言模型:基本任务

She

is

my

mom

One-hotEncoding有什么缺点吗?

One-hotEncoding

只有一个1,其余均为0

浙江大学

ANG材NIVEPSITY

4

WordEmbedding

用一个低维的词向量表示一个词

能使距离相近的向量对应的物体有相近的含义

0.99

0.99

0.05

0.1

0.99

0.05

0.93

0.09

0.02

0.01

0.99

0.98

0.98

0.02

0.94

0.3

20维的向量用one-hot和wordembedding的方法分别可以表示多少单词?

编码:让计算机理解人类语言

鲸鱼

海豚

鹦鹉企鹅

游泳飞翔

浙江大学

ANG材NIVEPSITY

5

Abottleoftezgüinoisonthetable.Everyonelikestezgüino.

Tezgüinomakesyoudrunk.

Wemaketezgüinooutofcorn.

(1)Abottleofisonthetable.

(2)Everyonelikes

(3)makesyoudrunk.

(4)Wemakeoutofcorn.

结合句子语境我们可以猜测:

tezgüino是一种由玉米制作的酒精类饮料

(1)(2)(3)(4)tezgüino1111motoroil1000tortillas0101

wine1110

浙江大学

ANG材NIVEPSITY

两行内容十分相近

两个单词含义相近

编码:让计算机理解人类语言

WordEmbedding

6

Before:P(小)·P(猫|小)·P(抓|小猫)·P(老|小猫抓)·P(鼠|小猫抓老)

2-gram:P(小)·P(猫|小)·P(抓|猫)·P(老|抓)·P(鼠|老)

3-gram:P(小)·P(猫|小)·P(抓|小猫)·P(老|猫抓)·P(鼠抓老)

■基于神经网络的LSTM/GRU(2000after)

■基于统计的N-gram(1970after)■Transformer(2017after)

语言模型:技术演化

Input

Embedding

Inputs

AdaNom

Muft-Head

Attention

PositionalEncocing

Food

7

Iamprettysmart!

Decoder

常见的深度学习模型框架,可用于解决Seq2Seq问题

Encoder

我很聪明!

可以根据任务选择不同的编码器和解码器(LSTM/GRU/Transformer)

Encoder-Decoder

浙江大学

ANG材NIVEPSITY

Representation

隐空间

8

四、DeepSeek

二、Transformer

:Outline

9

Transformer:理论架构创新

·自注意力机制:支持并行计算/全局上下

文档评论(0)

wang110109 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档