大型语言模型(LLMs)简史.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大型语言模型(LLMs)简史

从Transformers(2017年)到DeepSeek-R1(2025年)

原文:ABriefHistoryofLLMs,2025年2月11日,

/@lmpo/a-brief-history-of-Imms-from-transformers-2017-to-deepseek-r1-2

025-dae75dd3f59a

原作者:LMPo,一位科技专栏作家

编译者:唐隆基博士

编译者注:本文是经过编译的《大语言模型(LMMs)发展简史(2017~2025)》。尽管在第一篇文

章《人工智能深度学习简史(1956~2024)》中也简述了LLMs的简史,但这篇文章介绍了中

国的大语言模型的后起之秀DeepSeek,并且视其为大语言模型发展史上的新的里程碑,值

得关注。

2025年初,中国推出突破性且经济高效的大型语言模型(LLM)DeepSeek-R1,引发了人工

智能的巨变。本文追溯了LLM的演变历程,始于2017年革命性的Transformer架构,该架

构通过自注意力机制重塑了自然语言处理(NLP)。到2018年,首批基于Transformer的两款

LLM——GPT和BERT——相继发布,显著增强了语境理解和文本生成能力,为未来的创新奠

定了坚实的基础。2020年,拥有1750亿个参数的GPT-3展现了卓越的少样本和零样本学习

能力。然而,“幻觉”问题——即生成与事实不符的内容——成为了关键挑战。2022年,OpenAl

通过采用“监督微调”(SFT)和“基于人类反馈的强化学习”(RLHF)技术来应对这一挑战,

并由此开发了对话模型ChatGPT。这一突破引发了全球对人工智能的广泛关注。到2023年

和2024年,GPT-4和GPT-40等多模态模型将不断发展,无缝集成文本、图像和音频处理,

使其能够展现出更接近人类的能力,例如“听”、“说”和“看”。与此同时,OpenAI的o1

和DeepSeek的R1推进了复杂推理能力,使大型语言模型(LLM)更接近类人“系统2思维”。

此外,DeepSeek-R1模型的超高成本效率和开源设计挑战了人工智能规范,使高级大型语言

模型(LLM)的获取更加民主化,并推动了各行各业的创新。下图描述了大型语言模型(LLMs)

发展的时间线。

ABriefHistoryofLLMs

201720182019202020222024202420242025

JUNJUNOCTFEBOCTMAYSEPMARNOVFEBMARMARAPRDECJAN

GPTT5FLANLLaMA-3.1

LLaMA

405B

BERTGPT-3.5OpenAl-01

GPT-4

GPT-2InstrutGPTDcepSeck-V3

GPT-4o

TransformersGPT-3ChatGPTDeepSeek-R1

1

1.什么是语言模型(LM)?

语言模型(LM)是人工智能(Al)系

文档评论(0)

情报猿 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档