所有大模型，都学物理学：北大物理系一篇研究，震撼了AI圈.docxVIP

下载本文档

0
0
约3.38千字
约 7页
2025-12-28 发布于上海
举报
版权申诉

所有大模型，都学物理学：北大物理系一篇研究，震撼了AI圈.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

所有大模型，都学物理学：北大物理系一篇研究，震撼了AI圈

一、当AI遇到物理：从“经验主义”到“科学验证”的范式跃迁

在人工智能的发展浪潮中，大语言模型（LLM）的突破已从“能否生成文本”转向“能否深度推理”。当ChatGPT、GPT-4等模型在通用对话场景中展现出接近人类的表现时，科技界开始追问：这些模型是否真正理解了世界的底层规律？能否像人类科学家一样，从现象中归纳出普适性原理？

近年来，大模型在专业领域的应用逐渐深入，从代码生成到医疗诊断，从数学解题到工程设计，其能力边界不断拓展。但一个关键的问题始终悬而未决——如何客观、系统地评估大模型的“科学推理能力”？传统的AI基准测试多聚焦于语言理解、常识问答或简单逻辑判断，难以触及复杂物理现象背后的因果链与多步推导。例如，一个能准确预测行星轨道的模型，可能无法解释万有引力定律；一个能解答数学题的模型，可能不理解题目中隐含的物理意义。这种“知其然不知其所以然”的智能，暴露了大模型在科学思维层面的深层短板。

正是在这一背景下，北京大学物理学院的研究团队以“学科交叉”为突破口，用物理学这把“标尺”，为大模型的科学能力评估与机制解析打开了新维度。从PHYBench物理推理基准测试的推出，到“AI-牛顿”系统的原理发现，再到用最小作用量原理解码LLM生成规律的最新研究，北大物理系的系列成果不仅震撼了AI圈，更标志着大模型发展从“经验驱动”向“科学验证”的关键跃迁。

二、PHYBench：给大模型的“物理智商”做CT扫描

2025年9月，北大物理学院以本科生为核心的研究团队在人工智能顶级会议NeurIPS2025上发表的PHYBench物理学基准测试论文，成为学界关注的焦点。这一成果的特殊意义在于，它首次为大模型的物理推理能力提供了“精准CT扫描”。

PHYBench的设计理念源于对“科学推理本质”的深刻理解。物理作为自然科学的基础学科，其问题解决过程天然包含多步逻辑推导、因果关系分析、数学工具应用等复杂认知环节。北大团队精选了力学、热学、光学、电磁学、近代物理五大领域的500余道题目，覆盖从高中物理习题到大学生竞赛题的难度梯度，每道题都要求模型完成“理解问题-建立模型-数学计算-结论验证”的完整推理链条。与传统基准测试不同，PHYBench采用“模型闭环测试+人类解题验证”的双轨评估机制：一方面通过模型生成答案的自洽性检验推理严谨性，另一方面引入人类专家（包括物理竞赛金牌得主、高校教师）的解题数据作为参照，确保评测结果的科学性与公平性。

测试结果揭示了大模型在物理推理中的显著短板。表现最佳的模型准确率仅为45.8%，而人类专家的平均准确率达到61.9%。这一差距并非源于计算速度或记忆容量——大模型在简单公式计算上远胜人类——而是体现在“动态情境建模”和“因果链追踪”能力上。例如，在“分析斜面上滑块的运动状态”问题中，模型常因忽略空气阻力的动态变化或摩擦力的方向判断错误，导致后续推导全盘偏差；在“解释光电效应实验现象”问题中，模型虽能复述爱因斯坦方程，却难以将光子能量、逸出功等概念与实验参数的具体变化关联起来。

PHYBench的价值不仅在于“测不准”，更在于“指方向”。它首次将大模型的科学能力评估从“语言层面的形似”推向“思维层面的神似”，为模型优化提供了明确的靶标。正如项目负责人所言：“基准测试不是为了贬低模型，而是引导人类和AI共同朝着通用智能（AGI）前进。”该研究同时是教育部《物理学人工智能教育专用大模型》建设项目的首个重要成果，获得了国家自然科学基金、教育部物理学101计划等多项支持，其开放的数据集与代码（https://huggingface.co/datasets/Eureka-Lab/PHYBench）已成为全球AI研究者的重要工具。

三、AI-牛顿与最小作用量：用物理定律解码大模型的“黑箱”

如果说PHYBench解决了“如何评估”的问题，那么北大物理系的另一项成果——“AI-牛顿”系统与“LLM生成过程的细致平衡”研究，则试图回答“为何如此”的核心命题。

2025年11月，《自然》以“一个中国人工智能模型自主学到了基础物理学”为题，专题报道了马滟青教授课题组开发的“AI-牛顿”系统。该系统的突破性在于，它不仅能预测实验数据（如行星轨道、粒子碰撞结果），更能从数据中自主归纳出简洁普适的物理原理。传统AI模型擅长模式识别，但难以将分散的观察结果提炼为“定律”；而“AI-牛顿”通过引入“对称性约束”“数学简洁性偏好”等物理学核心思想，模拟了人类科学家“从现象到理论”的发现过程。例如，输入行星运动的观测数据后，它能自动推导出开普勒定律，甚至进一步抽象出万有引力公式——这一能力被《自然》评价为“向机器具备科学发现能力迈出了关键一步”。

更令人震撼的是2025年12月发表的最新

您可能关注的文档

文档评论（0）

182****1636 + 关注: 实名认证

文档贡献者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2025年12月12日上传了教师资格证

1亿VIP精品文档

更多 >

所有大模型，都学物理学：北大物理系一篇研究，震撼了AI圈.docxVIP