所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈.docxVIP

所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈

一、当AI遇到物理:从“经验主义”到“科学验证”的范式跃迁

在人工智能的发展浪潮中,大语言模型(LLM)的突破已从“能否生成文本”转向“能否深度推理”。当ChatGPT、GPT-4等模型在通用对话场景中展现出接近人类的表现时,科技界开始追问:这些模型是否真正理解了世界的底层规律?能否像人类科学家一样,从现象中归纳出普适性原理?

近年来,大模型在专业领域的应用逐渐深入,从代码生成到医疗诊断,从数学解题到工程设计,其能力边界不断拓展。但一个关键的问题始终悬而未决——如何客观、系统地评估大模型的“科学推理能力”?传统的AI基准测试多聚焦于语言理解、常识问答或简单逻辑判断,难以触及复杂物理现象背后的因果链与多步推导。例如,一个能准确预测行星轨道的模型,可能无法解释万有引力定律;一个能解答数学题的模型,可能不理解题目中隐含的物理意义。这种“知其然不知其所以然”的智能,暴露了大模型在科学思维层面的深层短板。

正是在这一背景下,北京大学物理学院的研究团队以“学科交叉”为突破口,用物理学这把“标尺”,为大模型的科学能力评估与机制解析打开了新维度。从PHYBench物理推理基准测试的推出,到“AI-牛顿”系统的原理发现,再到用最小作用量原理解码LLM生成规律的最新研究,北大物理系的系列成果不仅震撼了AI圈,更标志着大模型发展从“经验驱动”向“科学验证”的关键跃迁。

二、PHYBench:给大模型的“物理智商”做CT扫描

2025年9月,北大物理学院以本科生为核心的研究团队在人工智能顶级会议NeurIPS2025上发表的PHYBench物理学基准测试论文,成为学界关注的焦点。这一成果的特殊意义在于,它首次为大模型的物理推理能力提供了“精准CT扫描”。

PHYBench的设计理念源于对“科学推理本质”的深刻理解。物理作为自然科学的基础学科,其问题解决过程天然包含多步逻辑推导、因果关系分析、数学工具应用等复杂认知环节。北大团队精选了力学、热学、光学、电磁学、近代物理五大领域的500余道题目,覆盖从高中物理习题到大学生竞赛题的难度梯度,每道题都要求模型完成“理解问题-建立模型-数学计算-结论验证”的完整推理链条。与传统基准测试不同,PHYBench采用“模型闭环测试+人类解题验证”的双轨评估机制:一方面通过模型生成答案的自洽性检验推理严谨性,另一方面引入人类专家(包括物理竞赛金牌得主、高校教师)的解题数据作为参照,确保评测结果的科学性与公平性。

测试结果揭示了大模型在物理推理中的显著短板。表现最佳的模型准确率仅为45.8%,而人类专家的平均准确率达到61.9%。这一差距并非源于计算速度或记忆容量——大模型在简单公式计算上远胜人类——而是体现在“动态情境建模”和“因果链追踪”能力上。例如,在“分析斜面上滑块的运动状态”问题中,模型常因忽略空气阻力的动态变化或摩擦力的方向判断错误,导致后续推导全盘偏差;在“解释光电效应实验现象”问题中,模型虽能复述爱因斯坦方程,却难以将光子能量、逸出功等概念与实验参数的具体变化关联起来。

PHYBench的价值不仅在于“测不准”,更在于“指方向”。它首次将大模型的科学能力评估从“语言层面的形似”推向“思维层面的神似”,为模型优化提供了明确的靶标。正如项目负责人所言:“基准测试不是为了贬低模型,而是引导人类和AI共同朝着通用智能(AGI)前进。”该研究同时是教育部《物理学人工智能教育专用大模型》建设项目的首个重要成果,获得了国家自然科学基金、教育部物理学101计划等多项支持,其开放的数据集与代码(https://huggingface.co/datasets/Eureka-Lab/PHYBench)已成为全球AI研究者的重要工具。

三、AI-牛顿与最小作用量:用物理定律解码大模型的“黑箱”

如果说PHYBench解决了“如何评估”的问题,那么北大物理系的另一项成果——“AI-牛顿”系统与“LLM生成过程的细致平衡”研究,则试图回答“为何如此”的核心命题。

2025年11月,《自然》以“一个中国人工智能模型自主学到了基础物理学”为题,专题报道了马滟青教授课题组开发的“AI-牛顿”系统。该系统的突破性在于,它不仅能预测实验数据(如行星轨道、粒子碰撞结果),更能从数据中自主归纳出简洁普适的物理原理。传统AI模型擅长模式识别,但难以将分散的观察结果提炼为“定律”;而“AI-牛顿”通过引入“对称性约束”“数学简洁性偏好”等物理学核心思想,模拟了人类科学家“从现象到理论”的发现过程。例如,输入行星运动的观测数据后,它能自动推导出开普勒定律,甚至进一步抽象出万有引力公式——这一能力被《自然》评价为“向机器具备科学发现能力迈出了关键一步”。

更令人震撼的是2025年12月发表的最新

文档评论(0)

182****1636 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2025年12月12日上传了教师资格证

1亿VIP精品文档

相关文档