- 0
- 0
- 约1.67万字
- 约 49页
- 2026-03-02 发布于广东
- 举报
刘勇
中国人民大学高瓴人工智能学院副教授、博士生导师
博士生导师,从事机器学习研究,特别关注大规模机器学习、统计机器学习理论等。共
发表高水平期刊和会议论文40余篇,包括IEEETPAMI、ICML、NeurIPS、ICLR、
AAAI、IJCAI等,其中第一作者/唯一通讯作者在中国计算机学会推荐A类上发表学术论
文20余篇。曾获2014年亚太知识发现和数据挖掘会议(PAKDD)博士生论坛最佳论文,
并指导学生获2021年环太平洋国际人工智能会议(PRICAI)最佳学生论文。作为项目负
责人主持了国家自然科学基金面上项目和青年项目、北京市自然科学基金面上项目、中
国科学院基础前沿科学研究计划等。曾获2020年中国人民大学“杰出学者”、2019年中
国科学院“青年创新促进会”、2016年中国科学院信息工程研究所“引进优秀青年”、
2012年“博士研究生学术新人奖”等称号。
演讲主题:
大模型机理分析
大模型机理分析
刘勇
中国人民大学高瓴人工智能学院
研究背景
大模型ICL隐式更新机理分析
RAG增强是否能提升大模型推理能力?
合成数据机理分析在大模型后训练中是否有用?
研究背景介绍
•大模型技术飞速发展
•ChatGPT、ChatGPT4、Sora、O1
•大模型机理分析相对滞后
•大模型内部运行机理研究很少
•将来有可能发挥越来越重要的作用
研究背景介绍
•理论分析的难点
•大模型是一个系统工程
•理论上很难将其当一个总体研究
•现在处于盲人摸象的阶段
•本报告
•大模型ICL隐式更新机理分析
•RAG增强是否能提升大模型推理能
力?
•合成数据机理分析在大模型后训练
中是否有用?
图片来自pngtree
背景介绍
•什么是In-contextlearning(ICL)?
7
背景介绍
•监督学习范式
•1)给定训练数据,训练模型
1
+1=−
•其中,ℒ=ℓ;,
•2)预测+1=+1;
参数是显示更新的!!!
8
背景介绍
•In-contextlearning
•1)给定一个大模型
×1
•2)输入序列=,,…,,∈ℝ,其中
121
=,,
=
原创力文档

文档评论(0)