大模型机理分析.pdfVIP

  • 0
  • 0
  • 约1.67万字
  • 约 49页
  • 2026-03-02 发布于广东
  • 举报

刘勇

中国人民大学高瓴人工智能学院副教授、博士生导师

博士生导师,从事机器学习研究,特别关注大规模机器学习、统计机器学习理论等。共

发表高水平期刊和会议论文40余篇,包括IEEETPAMI、ICML、NeurIPS、ICLR、

AAAI、IJCAI等,其中第一作者/唯一通讯作者在中国计算机学会推荐A类上发表学术论

文20余篇。曾获2014年亚太知识发现和数据挖掘会议(PAKDD)博士生论坛最佳论文,

并指导学生获2021年环太平洋国际人工智能会议(PRICAI)最佳学生论文。作为项目负

责人主持了国家自然科学基金面上项目和青年项目、北京市自然科学基金面上项目、中

国科学院基础前沿科学研究计划等。曾获2020年中国人民大学“杰出学者”、2019年中

国科学院“青年创新促进会”、2016年中国科学院信息工程研究所“引进优秀青年”、

2012年“博士研究生学术新人奖”等称号。

演讲主题:

大模型机理分析

大模型机理分析

刘勇

中国人民大学高瓴人工智能学院

研究背景

大模型ICL隐式更新机理分析

RAG增强是否能提升大模型推理能力?

合成数据机理分析在大模型后训练中是否有用?

研究背景介绍

•大模型技术飞速发展

•ChatGPT、ChatGPT4、Sora、O1

•大模型机理分析相对滞后

•大模型内部运行机理研究很少

•将来有可能发挥越来越重要的作用

研究背景介绍

•理论分析的难点

•大模型是一个系统工程

•理论上很难将其当一个总体研究

•现在处于盲人摸象的阶段

•本报告

•大模型ICL隐式更新机理分析

•RAG增强是否能提升大模型推理能

力?

•合成数据机理分析在大模型后训练

中是否有用?

图片来自pngtree

背景介绍

•什么是In-contextlearning(ICL)?

7

背景介绍

•监督学习范式

•1)给定训练数据,训练模型

1

+1=−​

•其中,ℒ=ℓ;,

•2)预测+1=+1;

参数是显示更新的!!!

8

背景介绍

•In-contextlearning

•1)给定一个大模型

×1

•2)输入序列=,,…,,∈ℝ,其中

121

=,,

=

文档评论(0)

1亿VIP精品文档

相关文档