2025大模型原理、技术与应用：从GPT到DeepSeek-哈尔滨工业大学.pptx

下载文档

1
0
约1.13万字
约 67页
2025-04-21 发布于北京
举报
版权申诉
保障服务

2025大模型原理、技术与应用：从GPT到DeepSeek-哈尔滨工业大学.pptx

1、本文档共67页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型原理、技术与应用从从GPPTT到到DDeeeeppSSeeeekk

为什么是语言大模型又称大语言模型（LargeLanguageModels）语言是人类交流思想、表达情感最自然、最深刻、最方便的工具语言是继真核细胞之后最伟大的进化成就——社会生物学之父爱德华·威尔逊语言本身就是人类有史以来最大的技术发明——詹姆斯·格雷克《信息简史》人类历史上大部分知识是以语言文字形式记载和流传的

运算智能能存储会计算感知智能能听会说能看会认认知智能能理解会思考什么是自然语言处理?属于认知智能是人类和动物的主要区别之一自然语言指的是人类语言，特指文本符号，而非语音信号?自然语言处理（NaturalLanguageProcessing，NLP）用计算机来理解和生成自然语言的各种理论和方法需要更强的抽象和推理能力

自然语言处理是人工智能皇冠上的明珠自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈如果给我10亿美金，我会建造一个NASA级别的自然语言处理研究项目——美国双院院士、世界知名机器学习专家MichaelI.Jordan下一个十年懂语言者得天下——美国工程院士、微软前全球执行副总裁沈向洋深度学习的下一个大的进展应该是让神经网络真正理解文档的内容——诺贝尔奖得主、图灵奖得主、深度学习之父GeoffreyHinton深度学习的下一个前沿课题是自然语言理解——图灵奖得主、MetaAI负责人YannLeCun

自然语言处理的发展历史自然语言处理技术已经经历了五次范式变迁小规模专家知识1950~1990浅层机器学习算法1990~2010深度学习2010~2017大模型2023~2024预训练语言模型2018~2023

GPT哈工大位于____[知识]我在水果店看到了苹果、香蕉、____[语义]小明打了小红，然后她____[推理、指代]我一定推荐给朋友看，这部电影真是____[情感]?……GenerativePre-trainedTransformer，OpenAI2018采用语言模型预训练任务语言模型计算一个句子在语言中出现的概率或给定上文，预测下一个词出现的概率语言模型学到了什么？预训练阶段

GPT三大创新使用建模能力更强的Transformer模型在目标任务上精调整个预训练模型接入的下游任务模型可以非常简单开启了自然语言处理预训练模型时代精调阶段未标注文本语料库模型训练数据标注模型预训练模型精调Fine-tune预训练Pre-train

GPT ：大模型早已有之LanguageModelsareFew-ShotLearners,OpenAIMicrosoft参数，模型太大无法精调为不同的任务设计相应的“提示语”GPT-3代码生成示例无需训练，便可完成“文本”生成任务如：问答、文章续写、网页生成、自动编曲等任务描述示例（In-context）问题下面文本的情感是:我喜欢这部电影的情感是褒义这本书写得很好的情感是????

GPT 的不足GPT-3测试样例Question:Whichisheavier,atoasterorpencil?(烤箱和铅笔哪个更重？)GPT-3:Apencilisheavierthanatoaster.(铅笔比烤箱重。)Question:Howmanyeyedoesmyfoothave?(我的脚有几只眼睛？)GPT-3:Yourfoothastwoeyes. (你的脚有两只眼睛。)GPT-3原文指出，在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%！预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的瓶颈，故在深层次语义理解上与人类认知水平还相去较远！缺乏知识推理与可解释性

解决方案ChatGPT(OpenAI,2022.11)/

?模型规模足够大（60B？）预训练数据足够多在代码数据上继续预训练ChatGPT的关键核心技术（1/3）：无监督学习大规模预训练语言模型，涌现出推理能力