2025大模型原理技术与应用_66页_14mb.docxVIP

下载本文档

0
0
约1.2万字
约 67页
2026-01-06 发布于辽宁
举报

2025大模型原理技术与应用_66页_14mb.docx

大模型又称大语言模型（LargeLanguageModels）

语言是人类交流思想、表达情感最自然、最深刻、最方便的工具

——社会生物学之父爱德华·威尔逊

人类历史上大部分知识是以

语言文字形式记载和流传的

——詹姆斯·格雷克《信息简史》

自然语言指的是人类语言，特指文本符号，而非语音信号

?自然语言处理（NaturalLanguageProcessing，NLP）

用计算机来理解和生成自然语言的各种理论和方法

?属于认知智能是人类和动物的主要区别之一

需要更强的抽象和推理能力

运算智能

能存储会计算

感知智能

能听会说能看会认

认知智能

能理解会思考

懂语言者——美国工程院士、微软前全球执行副总裁沈向洋

懂语言者

——美国工程院士、微软前全球执行

副总裁沈向洋

让神经网络真正理解文档的内容——诺贝尔奖得主、图灵奖得主、深度学习之父

让神经网络真正理解文档的内容

——诺贝尔奖得主、图灵奖得主、深度学习之父GeoffreyHinton

自然语言处理

——美国双院院士、世界知名机器学习专家

MichaelI.Jordan

自然语言理解

——图灵奖得主、MetaAI负责人

YannLeCun

自然语言处理技术已经经历了五次范式变迁

1990~2010

1950~1990

2010~2017

2018~2023

2023~2024

GenerativePre-trainedTransformer，OpenAI2018

?采用语言模型预训练任务

?语言模型

?计算一个句子在语言中出现的概率

?或给定上文，预测下一个词出现的概率

语言模型学到了什么？

?哈工大位于 [知识]

?我在水果店看到了苹果、香蕉、 [语义]

?小明打了小红，然后她 [推理、指代]

?我一定推荐给朋友看，这部电影真是 [情感]

?……

预训练阶段

三大创新

?使用建模能力更强的Transformer模型

?在目标任务上精调整个预训练模型

?接入的下游任务模型可以非常简单

开启了自然语言处理预训练模型时代

数据标注

未标注文本语料库

精调

模型训练

模型

精调阶段

预训练

Pre-train

Fine-tune

预训练模型

?LanguageModelsareFew-ShotLearners,OpenAIMicrosoft2020

?1750亿参数，模型太大无法精调

?为不同的任务设计相应的“提示语”

下面文本的情感是:

我喜欢这部电影的情感是褒义这本书写得很好的情感是????

任务描述

示例（In-context）问题

?无需训练，便可完成“文本”生成任务

?如：问答、文章续写、网页生成、自动编曲等

GPT-3代码生成示例

GPT-3测试样例

Question:Whichisheavier,atoasterorpencil?(烤箱和铅笔哪个更重？)GPT-3:Apencilisheavierthanatoaster.(铅笔比烤箱重。)

Question:Howmanyeyedoesmyfoothave?(我的脚有几只眼睛？)GPT-3:Yourfoothastwoeyes. (你的脚有两只眼睛。)

缺乏知识推理与可解释性

GPT-3原文指出，在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%！

预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的

瓶颈，故在深层次语义理解上与人类认知水平还相去较远！

本报告来源于三个皮匠报告站（www.sgpbg.co

本报告来源于三个皮匠报告站（www.sgpbg.co）,由用户Id:660749下载,文档Id:622290,下载日期:2025-12-0

https:///

1trillion DeepSpeed

1trillion

DeepSpeed(1T)

GShard(600B)

ZeRO-2GPTV3(170B)(175B)

BlenderBotMMMT(30B)

T-NLG

Megatron(17B)T5

1billion

GPTV2(1.5B)

(8B)

(11B)

Grover(1.5B)

T-ELMo

XLMR

1million

ELMo(94M)

GPTV1(110M)

BERT-L (465M)MT-DNNROBERTA(500M)

(340M)

(330M)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025大模型原理技术与应用_66页_14mb.docxVIP