大模型机理分析.pdfVIP

下载本文档

0
0
约1.67万字
约 49页
2026-03-02 发布于广东
举报

大模型机理分析.pdf

刘勇

中国人民大学高瓴人工智能学院副教授、博士生导师

博士生导师，从事机器学习研究，特别关注大规模机器学习、统计机器学习理论等。共

发表高水平期刊和会议论文40余篇，包括IEEETPAMI、ICML、NeurIPS、ICLR、

AAAI、IJCAI等，其中第一作者/唯一通讯作者在中国计算机学会推荐A类上发表学术论

文20余篇。曾获2014年亚太知识发现和数据挖掘会议（PAKDD）博士生论坛最佳论文，

并指导学生获2021年环太平洋国际人工智能会议（PRICAI）最佳学生论文。作为项目负

责人主持了国家自然科学基金面上项目和青年项目、北京市自然科学基金面上项目、中

国科学院基础前沿科学研究计划等。曾获2020年中国人民大学“杰出学者”、2019年中

国科学院“青年创新促进会”、2016年中国科学院信息工程研究所“引进优秀青年”、

2012年“博士研究生学术新人奖”等称号。

演讲主题：

大模型机理分析

刘勇

中国人民大学高瓴人工智能学院

研究背景

大模型ICL隐式更新机理分析

RAG增强是否能提升大模型推理能力？

合成数据机理分析在大模型后训练中是否有用？

研究背景介绍

•大模型技术飞速发展

•ChatGPT、ChatGPT4、Sora、O1

•大模型机理分析相对滞后

•大模型内部运行机理研究很少

•将来有可能发挥越来越重要的作用

研究背景介绍

•理论分析的难点

•大模型是一个系统工程

•理论上很难将其当一个总体研究

•现在处于盲人摸象的阶段

•本报告

•大模型ICL隐式更新机理分析

•RAG增强是否能提升大模型推理能

力？

•合成数据机理分析在大模型后训练

中是否有用？

图片来自pngtree

背景介绍

•什么是In-contextlearning（ICL）？

背景介绍

•监督学习范式

•1)给定训练数据,训练模型

+1=−

•其中，ℒ=ℓ;,

•2）预测+1=+1;

参数是显示更新的！！！

背景介绍

•In-contextlearning

•1）给定一个大模型

×1

•2）输入序列=,,…,,∈ℝ，其中

121

=,,

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大模型机理分析.pdfVIP