- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025年初,我国推出了一款开创性且高性价比的「大型语言模型」(Large
LanguageModel,LLM)——DeepSeek-R1,引发了AI领域的巨大变革。
本文回顾LLM的发展历程,以2017年具有革命性意义的Transformer架构为起点。
1.什么是语言模型(LanguageModels)?
「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们
从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻
译、摘要、聊天机器人和内容生成等领域。
1.1大型语言模型(LLMs)
「语言模型」(LMs)和「大型语言模型」(LLMs)这两个术语虽然经常被互换使用,
但实际上它们基于规模、架构、训练数据和能力指代不同的概念。LLMs是LMs的一个
子集,其规模显著更大,通常包含数十亿个参数(例如,GPT-3拥有1750亿个参
数)。这种更大的规模使LLMs能够在广泛的任务中表现出卓越的性能。
“LLM”这一术语在2018至2019年间随着基于Transformer架构的模型(如BERT和
GPT-1)的出现开始受到关注。然而,在2020年GPT-3发布后,这个词才被广泛使
用,展示了这些大规模模型的重大影响力和强大能力。
1.2自回归语言模型(AutoregressiveLanguageModels)
大多数LLMs以「自回归方式」(Autoregressive)操作,这意味着它们根据前面的
「文本」预测下一个「字」(或token/sub-word)的「概率分布」(propability
distribution)。这种自回归特性使模型能够学习复杂的语言模式和依赖关系,从而善
于「文本生成」。
在数学上,LLM是一个概率模型(ProbabilisticModel),根据之前的输入文本
(₁₂ₙ₋₁)预测下一个字ₙ的概率分布。这可以表示为:
ₙ₁₂ₙ₋₁
在文本生成任时,LLM通过解码算法(DecodingAlgorithm)来确定下一个输出的
字。
这一过程可以采用不同的策略:既可以选择概率最高的下个字(即贪婪搜索),也可以
从预测的概率分布中随机采样一个字。后一种方法使得每次生成的文本都可能有所不
同,这种特性与人类语言的多样性和随机性颇为相似。
1.3生成能力
LLMs的自回归特性使其能够基于前文提供的上下文逐词生成文本。从「提示」(prompt)
开始,如下图,模型通过迭代预测下一个词,直到生成完整的序列或达到预定的停止条
件。为了生成对提示的完整回答,LLM通过将先前选择的标记添加到输入中进行迭代生
成,尤如「文字接龙」游戏。
LLM的文本生成尤如「文字接龙」游戏。
这种生成能力推动了多种应用的发展,例如创意写作、对话式人工智能以及自动化客户
支持系统。
2.Transformer革命(2017)
Vaswani等人在2017年通过其开创性论文“AttentionisAllYouNeed”引入了Transformer
架构,标志着NLP的一个分水岭时刻。它解决了早期模型如循环神经网络(RNNs)和长
短期记忆网络(LSTMs)的关键限制,这些模型在长程依赖性和顺序处理方面存在困
难。
这些问题使得使用RNN或LSTM实现有效的语言模型变得困难,因为它们计算效率低下且
容易出现梯度消失等问题。另一方面,Transformers克服了这些障碍,彻底改变了这一
领域,并为现代大型语言模型奠定了基础。
自注意力和Transformer架构
2.1Transformer架构的关键创新
自注意力机制(Self-Attention):与按顺序处理标记并难以应对长程依赖性的RNN不同,
Transformers使用自注意力来权衡每个标记相对于其他标记的重要性。这使得模型能够
动态关注输入的相关部分。数学上:
这里,Q、K、V是查询(query)、键(key)和值(value)矩阵,dₖ是键的维度。自注意力允许
并行计算,加快训练速度,同时提高全局上下文理解。
多头注意力:多个注意力头并行操作,每个头专注于输
您可能关注的文档
- DeepSeek 开源大模型系列:技术特性与行业应用.pdf
- Manus智能体:开启AI新范式的先锋探索202503.pdf
- SATP Holding Inc.慧算賬控股有限公司招股书.pdf
- 公共服务平台助力我国企业数字化转型暨优秀公共服务平台榜单.pdf
- 计算机行业研究深度报告:具身智能:万亿赛道,落地元年.pdf
- 2019年天津高考数学文.docx
- 2021青鸟消防无线手动报警开关J-SAP-JBF4124R-BF4125R.docx
- 2021青鸟消防JBF6142-D 输入输出接口使用说明书.docx
- 2020智能电能表功能规范.docx
- 2021房屋建筑抗震节能综合改造板墙及砂浆面层加固分册.docx
最近下载
- 固体废物管理知识培训课件.ppt VIP
- Midjourney 人工智能AI绘画教程:从娱乐到商用 课件 第1章 Midjourney 人工智能绘画简介.pptx
- 某啤酒厂废水处理工艺设计(4000m3d.docx
- 2025年无锡工艺职业技术学院单招职业技能测试题库及1套参考答案.docx VIP
- 高中课件:晶胞投影与原子分数坐标.ppt
- 高考“散文六种常考句段作用”题例解.doc VIP
- 2025年国航机务系统AMECO技术员岗位校园招聘笔试参考题库附带答案详解.pdf
- 中国翻译服务规范.PDF
- (高清版)DB33∕T 2080-2017 文化馆服务规范 .pdf VIP
- 2024年无锡工艺职业技术学院单招职业技能测试题库(全优).docx VIP
文档评论(0)