《大语言模型概论》课件第4章大语言模型架构.pptxVIP

下载本文档

4
0
约1.54万字
约 103页
2026-04-21 发布于山东
举报

《大语言模型概论》课件第4章大语言模型架构.pptx

;大语言模型的底层逻辑包括深度学习架构、训练机制与应用场景等。近年来，通过扩大数据大小和模型大小，大模型取得显著进展，提高了惊人的涌现能力，包括上下文学习（ICL）、指令微调和思维链（CoT）。不过，尽管大模型在自然语言处理任务中表现出了很好的零样本/少样本推理性能，但它们天生“视而不见”，因为通常只能理解离散文本。;尽管如此，研究界还是做出了许多努力来开发有能力的多模态大模型，展示了一些令人惊讶的实用能力，例如基于图像编写网站代码，理解模因（指能通过模仿而被复制的信息或思想，小到一条回答，一段流行歌曲旋律，一首古诗，一个笑话，一幅图片，大到一个习俗，一个节日，一个思想，一个主义）的深层含义，以及数学推理。;;PART01;深度学习的出发点是深层次的神经网络，但细分起来会有很多的不同模型（也就是不同的问题抽象方式）。对应一些常见的卷积神经网络（CNN）、深度神经网络（DNN）等，大模型大的具体含义也就是数学公式更复杂，参数更多。;2021年8月份，李飞飞等学者联名发表一份200多页的研究报告《论基础模型的机遇与风险》，详细描述了大规模预训练模型面临的机遇和挑战。文章中大模型被统一命名为“基础模型”。该论文肯定了基础模型对智能体基本认知能力的推动作用。2017年Transformer结构的提出，使得深度学习模型参数突破了1亿，BERT网络模型超过3亿规模，GPT-3模型超过百亿。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《大语言模型概论》课件第4章大语言模型架构.pptxVIP