《大语言模型概论》课件 第4章 大语言模型架构.pptxVIP

  • 4
  • 0
  • 约1.54万字
  • 约 103页
  • 2026-04-21 发布于山东
  • 举报

《大语言模型概论》课件 第4章 大语言模型架构.pptx

;大语言模型的底层逻辑包括深度学习架构、训练机制与应用场景等。近年来,通过扩大数据大小和模型大小,大模型取得显著进展,提高了惊人的涌现能力,包括上下文学习(ICL)、指令微调和思维链(CoT)。不过,尽管大模型在自然语言处理任务中表现出了很好的零样本/少样本推理性能,但它们天生“视而不见”,因为通常只能理解离散文本。;尽管如此,研究界还是做出了许多努力来开发有能力的多模态大模型,展示了一些令人惊讶的实用能力,例如基于图像编写网站代码,理解模因(指能通过模仿而被复制的信息或思想,小到一条回答,一段流行歌曲旋律,一首古诗,一个笑话,一幅图片,大到一个习俗,一个节日,一个思想,一个主义)的深层含义,以及数学推理。;;PART01;深度学习的出发点是深层次的神经网络,但细分起来会有很多的不同模型(也就是不同的问题抽象方式)。对应一些常见的卷积神经网络(CNN)、深度神经网络(DNN)等,大模型大的具体含义也就是数学公式更复杂,参数更多。;2021年8月份,李飞飞等学者联名发表一份200多页的研究报告《论基础模型的机遇与风险》,详细描述了大规模预训练模型面临的机遇和挑战。文章中大模型被统一命名为“基础模型”。该论文肯定了基础模型对智能体基本认知能力的推动作用。2017年Transformer结构的提出,使得深度学习模型参数突破了1亿,BERT网络模型超过3亿规模,GPT-3模型超过百亿。

文档评论(0)

1亿VIP精品文档

相关文档